modify the functionality of adding proxies

lenarsaitov · lenarsaitov · commit 63dae0d34b38 · 2023-10-28T01:07:20.000+03:00
diff --git a/README.md b/README.md
@@ -80,7 +80,7 @@ Total number of parced announcements: 56. Average price per month: 236 426 rub
 * __is_latin__ - необходимо ли преобразывание любой встрещающейся __кириллицы__ в __латиницу__, по умолчанию _False_
 * __is_express_mode__ - необходимо ли <ins>ускорение</ins> (___в 5-10 раз___) сбор данных (<ins>__но без трех полей__</ins>, см примечание), по умолчанию _True_
 * __is_by_homeowner__ - необходимо ли собирать данные с объявлений, созданных только собственниками, по умолчанию _False_
-* __proxies__ - прокси (см раздел __Cloudflare, CloudScraper, proxies__), по умолчанию _None_
+* __proxies__ - прокси (см раздел __Cloudflare, CloudScraper, Proxy__), по умолчанию _None_
 
 Если имеется желание __собрать данные со всех страниц__, то можно пропустить аргументы __start_page__ и __end_page__.
 В проекте предусмотрен функционал корректного завершения в случае окончания страниц. По данному моменту, следует изучить раздел __Ограничения__
@@ -140,21 +140,39 @@ cian_parsing_result_rent_long_1_2_moskva_04_Feb_2023_06_58_21_765479.csv
 | Capital Mars | real_estate_agent | https://www.cian.ru/rent/flat/282506328/ | Москва | rent | flat | 5 | 9 | 2 | 89.0 | 180000 | 2022 | 0 | 2006 | 53.0 | 15.0 | +79660619653 | Хамовники | 3-я Фрунзенская | Спортивная
 | MERSI | real_estate_agent | https://www.cian.ru/rent/flat/281562376/ | Москва | rent | flat | 8 | 16 | 2 | 80.0 | 200000 | 2500 | 0 | 2012 | -1 | -1 | +79652455850 | Замоскворечье | Мытная | Октябрьская
 
-### Cloudflare, CloudScraper, proxies
+### Cloudflare, CloudScraper, Proxy
 Для обхода блокировки в проекте задействован **CloudScraper** (библиотека **cloudscraper**), который позволяет успешно обходить защиту **Cloudflare**.
 
 Вместе с тем, это не гарантирует отсутствие возможности появления _у некоторых пользователей_ теста **CAPTCHA** при долговременном непрерывном использовании.
 
-Поэтому была предоставлена возможность проставлять прокси, используя аргумент **proxies**, ожидаемая структура значения которой выглядит следующим образом
+#### Proxy
+Поэтому была предоставлена возможность проставлять прокси, используя аргумент **proxies** (_список прокси протокола HTTP_)
+
+Пример:
 
 ```python
-proxies = {
-   'http': '',
-   'https': ''
-}
+proxies = [
+'85.26.146.169:80',
+'178.140.177.145:8889',
+'95.66.138.21:8880',
+'93.123.226.23:81',
+'46.47.197.210:3128',
+'213.184.153.66:8080',
+'62.33.207.201:3128',
+]
 ```
 
-То есть полностью аналогичная описанному в [документации библиотеки **requests** в разделе **session** главы __**proxy**__](https://requests.readthedocs.io/en/latest/user/advanced/#proxies).
+В процессе запуска утилита проходится по всем из них, пытаясь определить подходящий, то есть тот, 
+который может, во первых, делать запросы, во вторых, не иметь тест **_CAPTCHA_**
+
+Пример лога, в котором представлено все три возможных кейса
+
+```
+The process of checking the proxies... Search an available one among them...
+ 1 | proxy 46.47.197.210:3128: unavailable.. trying another
+ 2 | proxy 213.184.153.66:8080: there is captcha.. trying another
+ 3 | proxy 95.66.138.21:8880: available.. stop searching
+```
 
 ### Ограничения
 Сайт выдает списки с объявлениями <ins>__лишь до 54 странцы включительно__</ins>. Это примерно _28 * 54 = 1512_ объявлений.
diff --git a/cianparser/helpers.py b/cianparser/helpers.py
@@ -1,3 +1,8 @@
+import urllib.request
+import urllib.error
+from bs4 import BeautifulSoup
+
+
 def define_rooms_count(description):
     if "1-комн" in description or "Студия" in description:
         rooms_count = 1
@@ -23,3 +28,29 @@ def define_id_url(url: str):
         return url_path_elements[-2]
 
     return "-1"
+
+
+def is_available_proxy(url, pip):
+    try:
+        proxy_handler = urllib.request.ProxyHandler({'http': pip})
+        opener = urllib.request.build_opener(proxy_handler)
+        opener.addheaders = [('User-agent', 'Mozilla/5.0')]
+        urllib.request.install_opener(opener)
+        req = urllib.request.Request(url)
+        html = urllib.request.urlopen(req)
+
+        try:
+            soup = BeautifulSoup(html, 'lxml')
+        except:
+            soup = BeautifulSoup(html, 'html.parser')
+
+        if soup.text.find("Captcha") > 0:
+            return False, True
+
+        return True, False
+    except urllib.error.HTTPError as e:
+        print('Error code: ', e.code)
+        return not e.code, False
+    except Exception as detail:
+        print("Error:", detail)
+        return False, False
diff --git a/cianparser/parser.py b/cianparser/parser.py
@@ -9,6 +9,8 @@
 import pathlib
 from datetime import datetime
 import math
+import random
+import socket
 
 from cianparser.constants import *
 from cianparser.helpers import *
@@ -20,9 +22,12 @@ def __init__(self, deal_type: str, accommodation_type: str, city_name: str, loca
                  is_by_homeowner=False, proxies=None):
         self.session = cloudscraper.create_scraper()
         self.session.headers = {'Accept-Language': 'en'}
+
         if proxies is not None:
-            self.session.proxies = proxies
+            if len(proxies) == 0:
+                proxies = None
 
+        self.proxy_pool = proxies
         self.is_saving_csv = is_saving_csv
         self.is_latin = is_latin
         self.is_express_mode = is_express_mode
@@ -100,8 +105,41 @@ def build_url(self):
 
     def load_page(self, number_page=1):
         self.url = self.build_url().format(number_page, self.location_id)
+
+        socket.setdefaulttimeout(10)
+        was_proxy = self.proxy_pool is not None
+        set_proxy = False
+        self.url = self.build_url().format(number_page, self.location_id)
+
+        if was_proxy:
+            print("The process of checking the proxies... Search an available one among them...")
+
+        ind = 0
+        while self.proxy_pool is not None and set_proxy is False:
+            ind += 1
+            proxy = random.choice(self.proxy_pool)
+
+            available, is_captcha = is_available_proxy(self.url, proxy)
+            if not available or is_captcha:
+                if is_captcha:
+                    print(f" {ind} | proxy {proxy}: there is captcha.. trying another")
+                else:
+                    print(f" {ind} | proxy {proxy}: unavailable.. trying another..")
+
+                self.proxy_pool.remove(proxy)
+                if len(self.proxy_pool) == 0:
+                    self.proxy_pool = None
+            else:
+                print(f" {ind} | proxy {proxy}: available.. stop searching")
+                self.session.proxies = {"http": proxy, "https": proxy}
+                set_proxy = True
+
+        if was_proxy and set_proxy is False:
+            return None
+
         res = self.session.get(url=self.url)
         res.raise_for_status()
+
         return res.text
 
     def parse_page(self, html: str, number_page: int, count_of_pages: int, attempt_number: int):
@@ -114,7 +152,13 @@ def parse_page(self, html: str, number_page: int, count_of_pages: int, attempt_n
             print(f"The page from which the collection of information begins: \n {self.url}")
 
         if soup.text.find("Captcha") > 0:
-            print(f"\r{number_page} page: there is CAPTCHA... failed to parse page... ending...")
+            print(f"\r{number_page} page: there is CAPTCHA... failed to parse page...")
+
+            if self.proxy_pool is not None:
+                proxy = random.choice(self.proxy_pool)
+                print(f"\r{number_page} page: new attempt with proxy {proxy}...")
+                self.session.proxies = {"http": proxy}
+                return False, attempt_number + 1, False
 
             return False, attempt_number + 1, True
 
@@ -722,6 +766,10 @@ def save_results(self):
 
     def load_and_parse_page(self, number_page, count_of_pages, attempt_number):
         html = self.load_page(number_page=number_page)
+
+        if html is None:
+            return False, attempt_number + 1, True
+
         return self.parse_page(html=html, number_page=number_page, count_of_pages=count_of_pages,
                                attempt_number=attempt_number)
 
diff --git a/setup.cfg b/setup.cfg
@@ -1,6 +1,6 @@
 [metadata]
 name = cianparser
-version = 0.4.23
+version = 0.4.24
 description = Parser information from Cian website
 url = https://github.com/lenarsaitov/cianparser
 author = Lenar Saitov
diff --git a/setup.py b/setup.py
@@ -6,7 +6,7 @@
 
 setup(
     name='cianparser',
-    version='0.4.23',
+    version='0.4.24',
     description='Parser information from Cian website',
     url='https://github.com/lenarsaitov/cianparser',
     author='Lenar Saitov',