feat: 增强 Fanza 客户端并优化名称分割逻辑

baiheyyds · baiheyyds · commit f49b33578a5e · 2025-10-11T22:36:24.000+08:00
2
    3 本次提交包含对 Fanza 客户端和核心名称分割功能的重大改进，以及常规的数据映射更新。
    4
    5 主要变更：
    6
    7 1.  **增强 Fanza 客户端 (`fanza_client.py`)**
    8     *   **实现双重搜索机制**：引入主搜索 (`dlsoft`) 和后备搜索 (`mono`
      )。当主搜索无结果时，系统会自动尝试使用后备搜索，提高了搜索成功率。
    9     *   **动态页面解析**：根据返回的 URL 中是否包含 `/mono/`，智能选择新旧两种不同的页面解析器，以适应 Fanza
      网站不同时期的页面布局，极大增强了数据抓取的稳定性。
   10     *   **优化搜索过滤**：在主搜索流程中增加了对结果类型的过滤，确保只返回游戏相关的条目。
   11
   12 2.  **优化名称分割器 (`name_splitter.py`)**
   13     *   **新增启发式规则**：为 `smart_split` 函数添加了新的启发式判断。当名字被分割为三部分且中间部分为单字符时（如
      "アイネ・A・ロメロ"），系统会将其自动识别并合并为单个完整名称。
   14     *   **增强逻辑健壮性**：对上述规则增加了保护性条件，排除了 "A/B/C" 这类短名称组合被错误合并的可能。
   15     *   **清理例外文件**：随着新逻辑的引入，从 `name_split_exceptions.json` 中移除了不再需要的例外条目。
   16
   17 3.  **数据维护**
   18     *   更新了 Fanza 标签翻译 (`tag_fanza_to_cn.json`)。
   19     *   在 Bangumi 映射中增加了对 `VNDB` 和 `ErogameScape` 的处理。
diff --git a/clients/fanza_client.py b/clients/fanza_client.py
diff --git a/core/name_splitter.py b/core/name_splitter.py
@@ -51,6 +51,34 @@ def _add_exception(self, name: str):
         self._exceptions.add(name)
         logger.info(f"已在内存中将 '{name}' 标记为本次运行的例外。")
 
+    def _post_process_parts(self, parts: List[str]) -> List[str]:
+        """
+        对分割后的部分进行后处理，自动合并 "J・さいろー" 或 "神・无月" 这样的模式。
+        """
+        if len(parts) < 2:
+            return parts
+
+        new_parts = []
+        i = 0
+        while i < len(parts):
+            current_part = parts[i]
+            # --- 核心改进：检查是否为任意类型的单个字符 ---
+            if len(current_part) == 1:
+                # 如果后面还有部分，则合并
+                if i + 1 < len(parts):
+                    next_part = parts[i+1]
+                    merged_part = f"{current_part}・{next_part}"
+                    new_parts.append(merged_part)
+                    i += 2  # 跳过下一个部分，因为它已经被合并
+                else:
+                    # 这是最后一部分，无法合并，照常添加
+                    new_parts.append(current_part)
+                    i += 1
+            else:
+                new_parts.append(current_part)
+                i += 1
+        return new_parts
+
     async def smart_split(self, text: str, interaction_provider: InteractionProvider) -> List[str]:
         """
         智能分割名称字符串。
@@ -59,8 +87,6 @@ async def smart_split(self, text: str, interaction_provider: InteractionProvider
         if not text:
             return []
 
-        # --- [核心升级 3] 名称标准化 ---
-        # 将所有内部空白（包括全角空格）统一替换为单个标准空格
         def normalize(name: str) -> str:
             return re.sub(r'\s+', ' ', name).strip()
 
@@ -70,36 +96,42 @@ def normalize(name: str) -> str:
         parts = SPLIT_REGEX.split(text)
         cleaned_parts = [normalize(p) for p in parts if p.strip()]
 
-        if len(cleaned_parts) <= 1:
-            return cleaned_parts
+        # --- [核心升级 2] 启发式识别：处理 '名字A・名字B' 模式 ---
+        # 如果分割结果为三部分，且中间部分为单个字符，则极有可能是完整的姓名
+        if len(cleaned_parts) == 3 and len(cleaned_parts[1]) == 1 and (len(cleaned_parts[0]) > 1 or len(cleaned_parts[2]) > 1):
+            logger.info(f"检测到 '名字・首字母・名字' 模式，自动合并: {text}")
+            return [normalize(text)]
+
+        # 在风险识别前，先进行智能后处理
+        processed_parts = self._post_process_parts(cleaned_parts)
+
+        if len(processed_parts) <= 1:
+            return processed_parts
 
-        # --- [核心升级 2] 增强风险识别 ---
-        # 规则1: 分割后出现过短的部分 (例如: 'S')
-        is_dangerous = any(len(p) <= 1 for p in cleaned_parts)
+        # 增强风险识别 (现在基于后处理的结果)
+        is_dangerous = any(len(p) <= 1 for p in processed_parts)
         
-        # 规则2: 由'・'分割的全英文名称 (例如: 'Ryo・Lion')
         is_alpha_dot_split = False
-        if not is_dangerous and '・' in text and len(cleaned_parts) > 1:
-            if all(re.fullmatch(r'[a-zA-Z]+', p) for p in cleaned_parts):
+        if not is_dangerous and '・' in text and len(processed_parts) > 1:
+            if all(re.fullmatch(r'[a-zA-Z]+', p) for p in processed_parts):
                 is_alpha_dot_split = True
         
         if not is_dangerous and not is_alpha_dot_split:
-            return cleaned_parts
+            return processed_parts
 
         # --- Interactive part ---
-        choice = "keep"  # Default action
+        choice = "keep"
         save_exception = False
 
         if interaction_provider:
-            # TODO: 将增强的风险原因传递给GUI
-            decision = await interaction_provider.get_name_split_decision(text, cleaned_parts)
+            decision = await interaction_provider.get_name_split_decision(text, processed_parts)
             choice = decision.get("action", "keep")
             save_exception = decision.get("save_exception", False)
         else:
             # CLI Fallback
             def _get_input():
                 logger.warn(f"检测到【高风险】的名称分割: '{text}'")
-                print(f"  初步分割为: {cleaned_parts}")
+                print(f"  初步分割为: {processed_parts}")
                 if is_alpha_dot_split:
                     print("  原因: 检测到由'・'分割的纯英文名称，这可能是一个完整的名字。")
                 else:
@@ -128,7 +160,7 @@ def _get_save_confirmation():
 
         # --- Process decision ---
         if choice == "split":
-            return cleaned_parts
+            return processed_parts
         else:  # "keep"
             logger.info(f"用户选择不分割 '{text}'。")
             if save_exception:
diff --git a/mapping/bangumi_ignore_list.json b/mapping/bangumi_ignore_list.json
@@ -1,4 +1,5 @@
 [
+  "ErogameScape",
   "JAN番号",
   "キャラクターチップ",
   "下身尺寸",
diff --git a/mapping/bangumi_prop_mapping.json b/mapping/bangumi_prop_mapping.json
@@ -380,6 +380,9 @@
       "steam",
       "链接-steam"
     ],
+    "VNDB": [
+      "VNDB"
+    ],
     "中文补丁": [
       "中文补丁"
     ],
diff --git a/mapping/name_split_exceptions.json b/mapping/name_split_exceptions.json
@@ -1,3 +1 @@
-[
-  "アイネ・A・ロメロ"
-]
+[]
diff --git a/mapping/tag_fanza_to_cn.json b/mapping/tag_fanza_to_cn.json
@@ -1,8 +1,10 @@
 {
   "3P・4P": "乱交",
   "お嬢様・令嬢": "大小姐",
+  "くノ一": "女忍者",
   "アイドル": "偶像",
   "アナル": "肛交",
+  "イチャラブ": "甜蜜恋爱",
   "ウェイトレス": "女服务员",
   "オナニー": "自慰",
   "コスプレ": "角色扮演",
@@ -11,6 +13,7 @@
   "ツインテール": "双马尾",
   "ドラッグ": "药物",
   "ハーレム": "后宫",
+  "バトル": "战斗",
   "パイズリ": "乳交",
   "ファンタジー": "幻想",
   "フェラチオ": "口交",
@@ -26,6 +29,7 @@
   "外国人": "外国人",
   "女子校生": "女学生",
   "女性主導": "女性主导",
+  "女戦士": "女战士",
   "女教師": "女老师",
   "女王様": "女王",
   "女装・男の娘": "伪娘",
@@ -34,6 +38,7 @@
   "学園もの": "学校",
   "寝取られ（NTR）": "NTR",
   "巨乳": "巨乳",
+  "巫女": "巫女",
   "幼なじみ": "青梅竹马",
   "恋愛": "恋爱",
   "悪堕ち": "恶堕",
@@ -47,6 +52,7 @@
   "濡れスケ": "湿身透视",
   "田舎が舞台のゲーム": "乡下",
   "癒されるゲーム": "治愈",
+  "美少女": "美少女",
   "褐色肌": "小麦肤",
   "辱め": "屈辱",
   "野外・露出": "野外露出",
diff --git a/mapping/tag_mapping_dict.json b/mapping/tag_mapping_dict.json
@@ -107,6 +107,9 @@
     "恶堕",
     "堕落"
   ],
+  "战斗": [
+    "战斗"
+  ],
   "战斗H/破衣": [
     "战斗H",
     "破衣"

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`[`
	`2`	`+ "ErogameScape",`
`2`	`3`	`"JAN番号",`
`3`	`4`	`"キャラクターチップ",`
`4`	`5`	`"下身尺寸",`
-Original file line number
+Diff line change
@@ @@ -1,3 +1 @@ @@
 -[
 -  "アイネ・A・ロメロ"
 -]
 +[]