一个将各种格式文件转换为Markdown格式的工具。目前支持PDF文件的转换,未来将支持更多格式。
本项目基于 markdownify-mcp 项目开发。
- 支持PDF文件转换为Markdown格式
- 支持PDF文件转换为纯文本格式
- 保持文档的格式和结构
- 支持中文文本提取
- 自动识别标题层级
- 保持段落顺序
- 克隆仓库:
git clone https://github.com/Grant-Huang/all2markdown.git
cd all2markdown
- 创建虚拟环境(推荐):
python -m venv .venv
source .venv/bin/activate # Linux/Mac
# 或
.venv\Scripts\activate # Windows
- 安装依赖:
pip install -r requirements.txt
- 安装Tesseract-OCR(如果需要OCR功能):
- Windows: 从这里下载安装
- Linux:
sudo apt-get install tesseract-ocr
- Mac:
brew install tesseract
基本用法:
python all2md.py <输入文件路径> [--format {markdown,text}] [--output 输出文件路径]
参数说明:
输入文件路径
:要转换的文件路径--format
:输出格式,可选markdown
(默认)或text
--output
或-o
:输出文件路径(可选,默认为输入文件同目录下的同名文件)
示例:
# 转换为Markdown格式(默认)
python all2md.py document.pdf
# 转换为纯文本格式
python all2md.py document.pdf --format text
# 指定输出文件
python all2md.py document.pdf -o output.md
- 启动Web服务器:
cd web
python app.py
-
打开浏览器访问:http://localhost:5000
-
在网页界面上:
- 选择要转换的PDF文件
- 选择输出格式(Markdown或纯文本)
- 点击"转换"按钮
- 转换结果会直接显示在页面上
目前支持的输入格式:
- PDF文件 (.pdf)
计划支持的格式:
- Word文档 (.docx)
- Excel表格 (.xlsx)
- PowerPoint演示文稿 (.pptx)
- 图片文件 (.jpg, .png, etc.)
- 网页 (.html)
欢迎提交Pull Request来改进代码或添加新功能。
本项目基于 markdownify-mcp 项目开发,感谢原作者的开源贡献。
本项目采用MIT许可证 - 详见 LICENSE 文件。