Version 0.3
Ein lokal laufender Chatbot zur Analyse und Beantwortung von Fragen aus PDF-Bedienungsanleitungen für deine Haushaltsgeräte.
Er nutzt Flask
, ChromaDB
und ein lokal laufendes LLM (z. B. Mixtral oder LLaMA 3) oder optional OpenAI GPT-Modelle (online), wenn ein OPENAI_API_KEY
in .env
gesetzt ist.
Alle Daten bleiben komplett offline auf deinem Gerät. 🚀
- Upload von beliebig vielen PDF- und DOCX-Bedienungsanleitungen
- Verarbeitung inkl. OCR bei Bedarf
- Intelligente Chunking-Strategie basierend auf Texttyp
- Volltextsuche mit Synonym-Fallback
- Lokaler Ollama-LLM-Chat mit Weboberfläche
- Feedbacksystem zum Fine-Tuning
- Dokumentverwaltung (Auswahl/Löschen)
Empfohlen: Miniconda
# für Mac
brew install --cask miniconda
# für Windows
# Lade Miniconda von https://docs.conda.io/en/latest/miniconda.html
# und installiere mit „Add to PATH“ aktiviert.
Dann:
conda create -n haushaltsgeraete-assistent python=3.11
conda activate haushaltsgeraete-assistent
Installiere Homebrew, falls noch nicht vorhanden:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Dann:
brew install tesseract ghostscript poppler
brew install ocrmypdf
pip install -r requirements.txt
Installiere Ollama und lade ein Modell wie:
ollama pull mixtral:8x7b
# oder
ollama pull llama3:70b-instruct-q4_K_M
Alternativ können GPT-Modelle (z. B. gpt-4-turbo
) über OpenAI genutzt werden – setze dafür einen gültigen OPENAI_API_KEY
in einer .env
-Datei und installiere python-dotenv
.
python app_0.3.py
Dann öffne im Browser:
http://localhost:5050
├── app.py
├── uploads/
├── feedback/
├── chromadb/
├── requirements.txt
├── .gitignore
└── README.md
Modell | Qualität | RAM/VRAM / Hinweis |
---|---|---|
mixtral:8x7b |
⭐⭐⭐⭐ | ca. 40 GB |
llama3:70b-instruct-q4_K_M |
⭐⭐⭐⭐⭐ | ab 48 GB |
deepseek:chat |
⭐⭐⭐⭐ | gute DE-Unterstützung |
gpt-4-turbo |
⭐⭐⭐⭐⭐ | online, kostenpflichtig – erfordert OPENAI_API_KEY in .env |
gpt-4o |
⭐⭐⭐ | online, kostenpflichtig – erfordert OPENAI_API_KEY in .env |
Hinweis: GPT-Modelle (z.B. gpt-4-turbo
, gpt-4o
) können genutzt werden, wenn in einer .env
-Datei ein gültiger OPENAI_API_KEY
gesetzt ist.
- Hochgeladene PDFs können einzeln gelöscht werden
- Chunks werden automatisch aus ChromaDB entfernt
- Feedback mit richtiger Antwort wird gespeichert (für Nachtraining geeignet)