Discord Voice Client

Описание

Этот проект представляет собой голосового и текстового ассистента. Он использует распознавание речи, обработку текста и взаимодействие с внешними API для выполнения задач, таких как ответы на вопросы и управление Discord.

Требования

Python: 3.10
Установленные драйвера:
- Виртуальный микрофон и динамик: VB-Audio Virtual Cable
  - Рекомендуется использовать кабели A и B.
Устоновленный git
Установленный ffmpeg

Стек

Библиотеки

SpeechRecognition
Используется для распознавания речи через Google Speech Recognition.
Примечание: Whisper рассматривался как альтернатива, но был отклонён из-за высоких требований к ресурсам, низкой скорости и недостаточного качества распознавания (модели tiny, small, medium). Также Whisper плохо справляется с русской речью. Вы можете экспериментировать с ним самостоятельно.
webrtcvad
Используется для подавления шума и определения активной речи (Voice Activity Detection).
sounddevice
Воспроизведение звука через виртуальный динамик.
soundfile
Работа с аудиофайлами (запись и чтение).
transliterate
Транслитерация английского текста в кириллицу и обратно.

Собственные инструменты

NetworkToolsAPI
API для взаимодействия с ChatGPT и Text-to-Speech (TTS).
Репозиторий: NetworkToolsAPI.
Рекомендуемые модели:
- ChatGPT: chatgpt-4o
- TTS: hailuo TTS (turbo)
DiscordUserAPI
Управление Discord через Python.
Репозиторий: DiscordUserAPI.
Инструкция по установке: тут (следуйте всем пунктам, кроме 4.1 и 5).

Установка

Установите Python 3.10.
Установите виртуальные аудиокабели (VB-Audio Virtual Cable).

Склонируйте репозиторий:

git clone https://github.com/Badim41/discord_voice_client.git
cd discord_voice_client

Установите зависимости:

pip install -r requirements.txt
pip install python-magic-bin # для windows

Настройте виртуальный микрофон и динамик в системе (рекомендуются кабели A и B).
Настройте API-ключи в secret.py для NetworkTools, Cohere и других сервисов (см. документацию NetworkToolsAPI, Cohere).
При необходимости замените другие настройки в secret.py

Создание датасета

Рекомендуемый пункт. Бот будет искать ответы на вопросы в заготовленном файле с помощью эмбеддингов вопросов, тем, ответов.

Как это работает:

Есть 2 режима. Первый быстрый, для войс-чата:

Находится эмбеддинг вопроса и ищутся схожие вопросы в файле. Результат поиска получает GPT.
Поиск обычно занимает ~0.5 секунд, значительно повышая качество ответа

Второй вариант занимает чуть больше времени, но намного качественнее:

ChatGPT даётся вопрос, картинка и история сообщений, он составляет до 5 поисковых запросов в датасет
Повторение действий, как для для войс-чата (нахождение эмбеддинга и поиск результата)
Обычно этот вариант занимает не более 4 секунд

Теперь про создание датасета:

Подготовьте текстовые файлы. Укажите папку с файлами в переменной folder_path в create_dataset.py.
Укажите имя персонажа (character_name) и API ключ (network_tools_api). Про цены на API и как получить ключ: тык.
Если имена файлов соответствуют темам в них, установите segmented_input на True
Запустите скрипт:
```
python dataset/create_dataset.py
```

Процесс состоит из трёх этапов:

Форматирование: Текст преобразуется в формат "вопрос-ответ" с использованием API.
Сортировка: Вопросы и ответы сортируются по темам (если segmented_input=False).
Конвертация в JSON: Итоговый датасет сохраняется в формате JSON.

Поиск сообщений в дискорде для создания датасета

Вначале нужно спарсить, а потом обработать сообщения. Для этого нужно запустить ds_message_parser.py, а потом ds_message_format.py

ds_message_parser.py

Укажите author_id, guild_id, токен Discord.
После обработки появится 2 файла: {author_id}_raw.json, {author_id}_dialogues.json.

ds_message_format.py

После обработки появится 2 файла: formatted-dataset-{character_name}-2.txt, dataset_json/{character_name}-2.json.
Код также обрабатывает изображения, заменяет <@user_id> на имена пользователей.
Убедитесь, что токен Discord действителен и имеет права на чтение сообщений.
Для больших объемов данных настройте лимиты в messages_search (параметр limit).
Вы можете использовать formatted_dataset для обработки в create_dataset.py
Чтобы убрать обработку изображений в сообщениях, замените elif message["author_id"] == author_id and i == 0: на elif False: в 90 строке
Рекомендуется вручную убрать лишние вопросы и ответы в файлах датасета

Использование

Голосовой чат + текстовый чат

Запустите основной скрипт:
```
python main.py
```
Откройте дискорд с другим аккаунтов в браузере. 'devices_output' из 'secret.py' укажите как микрофон, а ' device_input' как динамики.

То есть по умолчанию:
- "Устройство Ввода": Cable-B-Output
- "Устройство вывода:" Cable-A-input

Зайдите со второго аккаунта в войс-чат
Говорите в микрофон в войс-чате или вводите текст — бот обработает запрос и ответит через виртуальный динамик или текстовым сообщением.

Примечания по войс-чату

Бот распознает речь, пока вы не остановитесь (должна быть пауза в 1 секунду)
Генерация речи занимает 9-14 секунд. Если в течение этого времени что-то сказать, то он завершит прошлый запрос и начнёт новый
Если перебивать бота в течении 3 секунд, то он замолчит.

Только текстовый чат

Запустите скрипт:
```
python ds_user.py
```
Напишите в лс или в обрабатываемый чат боту и он ответит

Примечания

Для улучшения качества распознавания русской речи рекомендуется использовать Google Speech Recognition.
Модель hailuo TTS (turbo) обеспечивает быструю и качественную генерацию речи.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
dataset		dataset
errors		errors
Logo.png		Logo.png
README.md		README.md
base_classes.py		base_classes.py
base_logger.py		base_logger.py
ds_user.py		ds_user.py
embedding_tools.py		embedding_tools.py
event_manager.py		event_manager.py
functions.py		functions.py
get_structure.py		get_structure.py
main.py		main.py
record.py		record.py
requirements.txt		requirements.txt
secret.py		secret.py
tts_tools.py		tts_tools.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Discord Voice Client

Описание

Требования

Стек

Библиотеки

Собственные инструменты

Установка

Создание датасета

Как это работает:

Теперь про создание датасета:

Поиск сообщений в дискорде для создания датасета

ds_message_parser.py

ds_message_format.py

Использование

Голосовой чат + текстовый чат

Примечания по войс-чату

Только текстовый чат

Примечания

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Badim41/discord_voice_client

Folders and files

Latest commit

History

Repository files navigation

Discord Voice Client

Описание

Требования

Стек

Библиотеки

Собственные инструменты

Установка

Создание датасета

Как это работает:

Теперь про создание датасета:

Поиск сообщений в дискорде для создания датасета

ds_message_parser.py

ds_message_format.py

Использование

Голосовой чат + текстовый чат

Примечания по войс-чату

Только текстовый чат

Примечания

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages