Skip to content

Grant-Huang/all2markdown

Repository files navigation

All2Markdown

一个将各种格式文件转换为Markdown格式的工具。目前支持PDF文件的转换,未来将支持更多格式。

本项目基于 markdownify-mcp 项目开发。

License: MIT

功能特点

  • 支持PDF文件转换为Markdown格式
  • 支持PDF文件转换为纯文本格式
  • 保持文档的格式和结构
  • 支持中文文本提取
  • 自动识别标题层级
  • 保持段落顺序

安装

  1. 克隆仓库:
git clone https://github.com/Grant-Huang/all2markdown.git
cd all2markdown
  1. 创建虚拟环境(推荐):
python -m venv .venv
source .venv/bin/activate  # Linux/Mac
#
.venv\Scripts\activate  # Windows
  1. 安装依赖:
pip install -r requirements.txt
  1. 安装Tesseract-OCR(如果需要OCR功能):
  • Windows: 从这里下载安装
  • Linux: sudo apt-get install tesseract-ocr
  • Mac: brew install tesseract

使用方法

命令行方式

基本用法:

python all2md.py <输入文件路径> [--format {markdown,text}] [--output 输出文件路径]

参数说明:

  • 输入文件路径:要转换的文件路径
  • --format:输出格式,可选 markdown(默认)或 text
  • --output-o:输出文件路径(可选,默认为输入文件同目录下的同名文件)

示例:

# 转换为Markdown格式(默认)
python all2md.py document.pdf

# 转换为纯文本格式
python all2md.py document.pdf --format text

# 指定输出文件
python all2md.py document.pdf -o output.md

Web界面方式

  1. 启动Web服务器:
cd web
python app.py
  1. 打开浏览器访问:http://localhost:5000

  2. 在网页界面上:

    • 选择要转换的PDF文件
    • 选择输出格式(Markdown或纯文本)
    • 点击"转换"按钮
    • 转换结果会直接显示在页面上

示例

输入PDF文件

输入PDF文件

转换后的Markdown

转换后的Markdown

支持的格式

目前支持的输入格式:

  • PDF文件 (.pdf)

计划支持的格式:

  • Word文档 (.docx)
  • Excel表格 (.xlsx)
  • PowerPoint演示文稿 (.pptx)
  • 图片文件 (.jpg, .png, etc.)
  • 网页 (.html)

贡献

欢迎提交Pull Request来改进代码或添加新功能。

致谢

本项目基于 markdownify-mcp 项目开发,感谢原作者的开源贡献。

许可证

本项目采用MIT许可证 - 详见 LICENSE 文件。

About

一个将各种格式文件转换为Markdown格式的工具

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •