音声ファイルを自動で文字起こしし、AI要約を生成するローカル実行システムです。プライバシーを保護しながら、高品質な音声要約を実現します。
- 完全ローカル実行: インターネット接続不要
- 高精度文字起こし: Whisper Large-v3使用
- AI要約: DeepSeek-Coder 6.7Bによる構造化要約
- Mac M4最適化: Metal Performance Shaders活用
- 多言語対応: 日本語に特化
- Markdown出力: 構造化された要約
- macOS 13.0+
- Python 3.9+
- 16GB+ RAM(推奨: 32GB)
- Apple Silicon Mac(M1/M2/M3/M4)推奨
git clone https://github.com/yourusername/local-llm-audio-summary.git
cd local-llm-audio-summary
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
# macOS
curl -fsSL https://ollama.ai/install.sh | sh
# DeepSeek-Coder 6.7B(推奨)
ollama pull deepseek-coder:6.7b-instruct
# または他のモデル
ollama pull llama2:70b-chat-q4_0
ollama pull llama2:13b
# Homebrewを使用
brew install ffmpeg
python auto_transcribe_summarize.py meeting.m4a --llm_model deepseek-coder:6.7b-instruct
python auto_transcribe_summarize.py audio_file.m4a \
--llm_model deepseek-coder:6.7b-instruct \
--map_chars 600 \
--extract_sent 15
audio_file
: 音声ファイルのパス--llm_model
: 使用するOllamaモデル名--map_chars
: 途中要約の文字数制限(デフォルト: 600)--extract_sent
: 抽出要約の文数(デフォルト: 15)
実行後、以下のファイルが生成されます:
transcript.txt
- 文字起こし結果full_transcript.txt
- 完全版文字起こしsummary.md
- 構造化されたMarkdown要約full_summary.txt
- 完全版要約
- VAD: Voice Activity Detectionによる無音除去
- 分割: 600秒チャンクに分割
- フォーマット: M4A, WAV, MP3対応
- モデル: Whisper Large-v3
- 精度: 95-98%
- 言語: 日本語対応
- 最適化: Mac M4 MPS(Metal Performance Shaders)
- 手法: 階層型Map-Reduce要約
- モデル: DeepSeek-Coder 6.7B
- 出力: 構造化Markdown
音声ファイル → VAD処理 → 音声分割 → Whisper文字起こし → 要約生成 → Markdown出力
- 音声前処理: VADによる無音除去
- 音声分割: 600秒チャンクに分割
- 文字起こし: Whisper Large-v3で高精度文字起こし
- 抽出要約: TextRankによる重要文抽出
- 生成要約: LLMによる構造化要約
- 出力: Markdown形式で保存
- 文字起こし: 10-15分
- 要約生成: 10-20分
- 合計: 20-35分
- 文字起こし: 95-98%
- 要約品質: 高品質な構造化出力
- 専門用語: 医療分野でも高精度
# auto_transcribe_summarize.py
DEFAULT_LLM_MODEL = "your-preferred-model"
DEFAULT_MODEL_SIZE = "large-v3" # medium, large, large-v2, large-v3
MAX_PROCESSES = 8 # 並列処理数
CHUNK_SEC = 600 # 音声分割秒数
MAP_CHUNK_TOKENS = 8000 # 要約チャンクサイズ
Error: CUDA out of memory
解決策: より小さなモデルを使用
ollama pull llama2:13b
Error: ffmpeg command not found
解決策: FFmpegをインストール
brew install ffmpeg
Error: model not found
解決策: モデルをダウンロード
ollama pull deepseek-coder:6.7b-instruct
プルリクエストやイシューの報告を歓迎します。
git clone https://github.com/yourusername/local-llm-audio-summary.git
cd local-llm-audio-summary
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
MIT License
- OpenAI Whisper - 音声認識
- Ollama - ローカルLLM実行
- DeepSeek - 要約モデル
- FFmpeg - 音声処理
問題や質問がある場合は、GitHubのIssuesページでお知らせください。