这是一个易用的工具,集成了网页爬虫和Markdown文档清洗功能,帮助您获取和优化知识内容。
- 简单的图形用户界面
- 可自定义保存路径
- 实时显示爬取进度
- 自动处理错误和异常
- 使用DeepSeek API进行智能内容优化
- 支持单文件或批量处理整个目录
- 实时显示处理进度和结果
- 清洗后的文件自动保存为新文件,不影响原始文件
MD_knowledge_great_again/
├── src/
│ ├── app.py # Streamlit Web 应用主文件
│ ├── markdown_cleaner.py # Markdown 清洗核心功能
│ ├── web_crawler.py # 网页爬虫功能
│ └── config.py # 配置文件
├── tests/ # 测试文件目录
├── docs/ # 文档目录
├── examples/ # 示例文件目录
├── requirements.txt # 项目依赖
├── run.py # 启动脚本
└── README.md # 项目说明文档
- Python 3.7 或更高版本
- pip(Python包管理器)
- DeepSeek API密钥(用于Markdown清洗功能)
-
克隆或下载本项目到本地
-
运行工具:
python run.py
或在 Windows 上双击
run.py
文件 -
使用网页爬虫功能:
- 切换到"网页爬虫"标签页
- 输入要爬取的网页URL
- 选择保存路径
- 点击"开始爬取"按钮
-
使用Markdown清洗功能:
- 切换到"Markdown清洗"标签页
- 填入DeepSeek API密钥和相关配置
- 选择要处理的单个文件或整个目录
- 点击"开始清洗"按钮
- 清洗后的文件将以"Cleandone-"为前缀保存在原位置
-
获取文件路径:
- 按住 Shift 键,同时右键点击文件
- 选择"复制为路径"选项
- 粘贴到程序中时,注意删除路径两端的引号
-
获取文件夹路径:
- 打开文件夹
- 点击地址栏(路径将会被选中)
- 按 Ctrl+C 复制路径
- 粘贴到程序中
-
快捷方式:
- 在文件资源管理器中,可以在地址栏直接输入
cmd
,然后按回车打开命令提示符 - 在命令提示符中,输入
echo %cd%
可以显示当前目录的完整路径
- 在文件资源管理器中,可以在地址栏直接输入
-
获取文件路径:
- 右键点击文件,按住 Option 键
- 选择"复制文件名"选项会变成"复制文件路径"
- 粘贴到程序中
-
获取文件夹路径:
- 右键点击文件夹,按住 Option 键
- 选择"复制文件名"选项会变成"复制文件路径"
- 粘贴到程序中
-
使用终端方法:
- 打开终端 (Terminal)
- 将文件或文件夹直接拖拽到终端窗口中
- 完整路径会自动显示,可以复制使用
-
使用 Finder 显示路径:
- 在 Finder 中,按下组合键 Command+Option+P 显示路径栏
- 点击路径栏中的任意部分可以复制该路径
- Windows 系统中路径分隔符为反斜杠
\
,在程序中使用时可能需要改为正斜杠/
或使用双反斜杠\\
- 如果路径中包含空格,确保整个路径加上引号,或使用转义字符
要使用Markdown清洗功能,您需要配置DeepSeek API:
- 获取DeepSeek API密钥(访问 https://platform.deepseek.com/api_keys 注册并获取)
- 在程序界面的API设置区域填入API密钥
- 如需永久保存API设置,可以编辑
src/config.py
文件
默认配置:
- API端点:
https://api.deepseek.com
- 模型名称:
deepseek-chat
如果自动安装依赖失败,可以手动安装:
pip install -r requirements.txt
- 请确保有足够的磁盘空间
- 遵守网站的robots.txt规则
- 建议在爬取大量数据时设置适当的延迟
- 使用Markdown清洗功能时,请确保API密钥配置正确
- 大型文件处理可能需要较长时间,请耐心等待
-
如果启动失败,请检查:
- Python是否正确安装
- 是否有正确的网络连接
- 依赖是否完整安装
-
如果保存失败,请检查:
- 保存路径是否有写入权限
- 磁盘空间是否充足
-
如果Markdown清洗失败,请检查:
- API密钥是否正确
- 网络连接是否畅通
- API调用次数是否已达到限制
- 模型名称是否正确(如果你修改了默认的"deepseek-chat")
MIT License