🚀 RAG по документации scikit-learn

Этот проект реализует RAG-систему (Retrieval-Augmented Generation) на основе официальной документации scikit-learn, позволяя задавать вопросы и получать точные ответы с указанием источников.

Система построена с использованием современных инструментов:

LangChain — для построения полного RAG-пайплайна: загрузки, разбиения, векторизации и поиска.
Ollama — для запуска локальных моделей:
- bge-m3 — генерация эмбеддингов для семантического поиска,
- llama3 — генерация ответов на естественном языке.

Проект автоматически скачивает актуальную документацию scikit-learn, обрабатывает её, создает векторное хранилище на основе FAISS и предоставляет удобный интерфейс через Gradio для взаимодействия с системой.

🔍 Что делает система?

📥 Автоматически скачивает и распаковывает актуальную документацию scikit-learn.
🧹 Очищает HTML, извлекает контекст (хлебные крошки, заголовки) и разбивает на чанки.
🧠 Векторизует текст с помощью bge-m3 (через Ollama).
🔍 Использует FAISS для быстрого поиска.
🤖 Генерирует ответы с помощью llama3.
🖥️ Предоставляет Gradio-интерфейс для удобного взаимодействия.

🧪 Примеры вопросов

Какой параметр в KMeans отвечает за количество кластеров?
Чем отличаются KMeans и MiniBatchKMeans?
Почему scikit-learn не поддерживает обучение с подкреплением?

🚀 Как запустить?

1. Установите зависимости

pip install -r requirements.txt

2. Установите и запустите Ollama

Если у вас ещё не установлен Ollama, скачайте его с официального сайта:
👉 https://ollama.com/download

3. Загрузите необходимые модели

Выполните в терминале:

ollama pull bge-m3
ollama pull llama3

4. Запустите сервер Ollama (для генерации)

В отдельном терминале запустите:

ollama run llama3

⚠️ Оставьте этот терминал открытым — он нужен для генерации ответов.

5. Запустите Jupyter

jupyter notebook

6. Откройте ноутбук

RAG_scikit-learn.ipynb

💡 Первый запуск может занять 5–10 минут: система скачает документацию, построит чанки и FAISS-индекс.

🖥️ Интерфейс

После запуска Gradio, откроется веб-интерфейс, где можно задавать вопросы и видеть ответы с ссылками на официальную документацию.

📂 Структура проекта

scikit-learn-rag/
├── README.md
├── RAG_scikit-learn.ipynb
├── output/                  # (опционально) сохранённые чанки и FAISS
├── requirements.txt
├── .gitignore
└── LICENSE

📄 Лицензия

Проект распространяется под лицензией MIT.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🚀 RAG по документации scikit-learn

🔍 Что делает система?

🧪 Примеры вопросов

🚀 Как запустить?

1. Установите зависимости

2. Установите и запустите Ollama

3. Загрузите необходимые модели

4. Запустите сервер Ollama (для генерации)

5. Запустите Jupyter

6. Откройте ноутбук

🖥️ Интерфейс

📂 Структура проекта

📄 Лицензия

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
output		output
.gitignore		.gitignore
RAG_scikit-learn.ipynb		RAG_scikit-learn.ipynb
README.md		README.md
requirements.txt		requirements.txt

annashesta/RAG_scikit-learn

Folders and files

Latest commit

History

Repository files navigation

🚀 RAG по документации scikit-learn

🔍 Что делает система?

🧪 Примеры вопросов

🚀 Как запустить?

1. Установите зависимости

2. Установите и запустите Ollama

3. Загрузите необходимые модели

4. Запустите сервер Ollama (для генерации)

5. Запустите Jupyter

6. Откройте ноутбук

🖥️ Интерфейс

📂 Структура проекта

📄 Лицензия

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages