Fixed obtaining character name when character is a unit

saderuuu · saderuuu · commit 74fe63a79c86 · 2023-01-06T01:47:54.000Z
diff --git a/README.md b/README.md
@@ -8,4 +8,6 @@ a simple scraper to download all card images from https://mikucolle.gamerch.com/
 
 - Install requirements from requirements.txt: ```pip install -r requirements.txt```
 - Run main.py: ```python main.py```
+- The images should be saved in the ```out``` folder, grouped by character:
 
+![scraper screenshot](docs/folders.png)
diff --git a/docs/folders.png b/docs/folders.png
diff --git a/main.py b/main.py
@@ -56,19 +56,29 @@ def download_images(url_list):
 
         if html is not None:
             bs = BeautifulSoup(html, "html.parser")
-            image = bs.find("img", {"class": "ui_wikidb_main_img"})
-            character = bs.find("a", {"class": "ui_page_match"})
-            name = bs.find("h2", {"id": "js_wikidb_main_name"})
 
+            # image link
+            image = bs.find("img", {"class": "ui_wikidb_main_img"})
             image_url = image['src']
-            character_name = character['title']
-            filename = f"{name.text}.jpg"
-            character_dir = os.path.join(OUTPUT_FOLDER, character_name)
 
+            # character
+            character = bs.select_one('.ui_wikidb_top_pc > p:nth-child(2) > span:nth-child(1)')
+            next_elem = character.findNext()
+            if next_elem.name == "a":
+                character_name = next_elem['title'].strip()
+            else:
+                character_name = next_elem.previous_sibling.text.strip()
+
+            # card name
+            card_name = bs.find("h2", {"id": "js_wikidb_main_name"})
+
+            # output path
+            filename = f"{card_name.text.strip()}.jpg"
+            character_dir = os.path.join(OUTPUT_FOLDER, character_name)
             if not os.path.exists(character_dir):
                 os.makedirs(character_dir, exist_ok=True)
-
             output_file = os.path.join(character_dir, filename)
+
             urllib.request.urlretrieve(image_url, filename=output_file)