Skip to content

MaxHou-infinity/MD_knowledge_great_again

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

网页爬虫与Markdown清洗工具

这是一个易用的工具,集成了网页爬虫和Markdown文档清洗功能,帮助您获取和优化知识内容。

功能特点

网页爬虫功能

  • 简单的图形用户界面
  • 可自定义保存路径
  • 实时显示爬取进度
  • 自动处理错误和异常

Markdown清洗功能

  • 使用DeepSeek API进行智能内容优化
  • 支持单文件或批量处理整个目录
  • 实时显示处理进度和结果
  • 清洗后的文件自动保存为新文件,不影响原始文件

项目结构

MD_knowledge_great_again/
├── src/
│   ├── app.py              # Streamlit Web 应用主文件
│   ├── markdown_cleaner.py # Markdown 清洗核心功能
│   ├── web_crawler.py      # 网页爬虫功能
│   └── config.py          # 配置文件
├── tests/                 # 测试文件目录
├── docs/                  # 文档目录
├── examples/              # 示例文件目录
├── requirements.txt       # 项目依赖
├── run.py                # 启动脚本
└── README.md             # 项目说明文档

系统要求

  • Python 3.7 或更高版本
  • pip(Python包管理器)
  • DeepSeek API密钥(用于Markdown清洗功能)

快速开始

  1. 克隆或下载本项目到本地

  2. 运行工具:

    python run.py

    或在 Windows 上双击 run.py 文件

  3. 使用网页爬虫功能:

    • 切换到"网页爬虫"标签页
    • 输入要爬取的网页URL
    • 选择保存路径
    • 点击"开始爬取"按钮
  4. 使用Markdown清洗功能:

    • 切换到"Markdown清洗"标签页
    • 填入DeepSeek API密钥和相关配置
    • 选择要处理的单个文件或整个目录
    • 点击"开始清洗"按钮
    • 清洗后的文件将以"Cleandone-"为前缀保存在原位置

如何获取文件或目录路径

Windows 系统

  1. 获取文件路径

    • 按住 Shift 键,同时右键点击文件
    • 选择"复制为路径"选项
    • 粘贴到程序中时,注意删除路径两端的引号
  2. 获取文件夹路径

    • 打开文件夹
    • 点击地址栏(路径将会被选中)
    • 按 Ctrl+C 复制路径
    • 粘贴到程序中
  3. 快捷方式

    • 在文件资源管理器中,可以在地址栏直接输入 cmd,然后按回车打开命令提示符
    • 在命令提示符中,输入 echo %cd% 可以显示当前目录的完整路径

Mac 系统

  1. 获取文件路径

    • 右键点击文件,按住 Option 键
    • 选择"复制文件名"选项会变成"复制文件路径"
    • 粘贴到程序中
  2. 获取文件夹路径

    • 右键点击文件夹,按住 Option 键
    • 选择"复制文件名"选项会变成"复制文件路径"
    • 粘贴到程序中
  3. 使用终端方法

    • 打开终端 (Terminal)
    • 将文件或文件夹直接拖拽到终端窗口中
    • 完整路径会自动显示,可以复制使用
  4. 使用 Finder 显示路径

    • 在 Finder 中,按下组合键 Command+Option+P 显示路径栏
    • 点击路径栏中的任意部分可以复制该路径

注意事项

  • Windows 系统中路径分隔符为反斜杠 \,在程序中使用时可能需要改为正斜杠 / 或使用双反斜杠 \\
  • 如果路径中包含空格,确保整个路径加上引号,或使用转义字符

配置DeepSeek API

要使用Markdown清洗功能,您需要配置DeepSeek API:

  1. 获取DeepSeek API密钥(访问 https://platform.deepseek.com/api_keys 注册并获取)
  2. 在程序界面的API设置区域填入API密钥
  3. 如需永久保存API设置,可以编辑src/config.py文件

默认配置:

  • API端点: https://api.deepseek.com
  • 模型名称: deepseek-chat

手动安装依赖

如果自动安装依赖失败,可以手动安装:

pip install -r requirements.txt

注意事项

  • 请确保有足够的磁盘空间
  • 遵守网站的robots.txt规则
  • 建议在爬取大量数据时设置适当的延迟
  • 使用Markdown清洗功能时,请确保API密钥配置正确
  • 大型文件处理可能需要较长时间,请耐心等待

常见问题

  1. 如果启动失败,请检查:

    • Python是否正确安装
    • 是否有正确的网络连接
    • 依赖是否完整安装
  2. 如果保存失败,请检查:

    • 保存路径是否有写入权限
    • 磁盘空间是否充足
  3. 如果Markdown清洗失败,请检查:

    • API密钥是否正确
    • 网络连接是否畅通
    • API调用次数是否已达到限制
    • 模型名称是否正确(如果你修改了默认的"deepseek-chat")

许可证

MIT License

Releases

No releases published

Packages

No packages published

Languages