This repository contains materials and notebooks for the Speech Signal Processing course.
Tip #1:
In case you don't want to load the entire repositiry, a single folder can be downloaded via DownGit.
Tip #2:
Sometimes GitHub failes to render a notebook. In that case use nbviewer — it works like a charm!
Course syllabus can be found here.
Legend: — slides,
— code,
— video.
Week | What | Where | When |
---|---|---|---|
Digital Signal Processing | |||
1 | Основы цифровой обработки сигналов: понятие сигнала; концепции ЦОС; дискретизация по времени/амплитуде, теорема отсчётов; хранение, обработка и передача; сигналы дискретного времени; энергия и мощность; алгоритм Карплуса-Стронга. |
![]() ![]() |
19.02.2021 |
2 | Представление сигналов в спектральной области, понятие спектра, прямое и обратное преобразование Фурье, быстрое преобразование Фурье, оконное преобразование Фурье, банк фильтров, вычисление мел-частотных кепстральных коэффициентов. |
![]() ![]() |
26.02.2021 |
Работа с аудиофайлами в Python, гармонические сигналы, свёртка, алгоритм Карплуса-Стронга. | ![]() ![]() |
||
3 | Цифровые фильтры, ЛИС-фильтры, _z_-преобразование, нерекурсивные и рекурсивные фильтры, теорема о свёртке; адаптивная фильтрация, банк фильтров и inception-блок, понижение частоты дискретизации и _pooling_, рекурсия и фильтрация в методе моментов, голосовая биометрия, мел-частотные кепстральные коэффициенты, синтез фильтров. |
![]() ![]() ![]() |
05.03.2021 |
Импульсная и переходная характеристики фильтров, АЧХ, ФЧХ; анализ спектрограммы, мел-шкала и мел-фильтры, классификация слов. | ![]() ![]() |
||
Automatic Speech Recognition | |||
4 | Понятие речи, типы систем распознавания речи и сценарии их использования, метрики оценки качества (SER, WER, accuracy, FR, FA), трудности при создании; акустические признаки речи (MFCC); системы распознавания речи на основе сравнения с эталоном (DTW, token-passing). |
![]() ![]() |
12.03.2021 |
5 | Вероятностная постановка задачи распознавания речи, акустическая модель (цепь Маркова, скрытая марковская модель), языковая модель (n-grams, perplexity, discounting, back-off, ARPA LM, NN LM), лексикон, декодер, сбор и подготовка данных для обучения. |
![]() ![]() |
19.03.2021 |
Реализация Dynamic Time Warping (DTW) алгоритма на основе Token Passing Algorithm (TPA). | ![]() |
||
6 | Скрытые марковские модели (HMM), применение HMM для распознавания речи, смеси гауссовских распределений, обучение GMM-HMM. |
![]() ![]() |
26.03.2021 |
7 | Взвешенные конечные преобразователи, WFST-декодер, словные сети, дискриминативное обучение GMM-HMM, адаптация систем распознавания речи. Традиционные системы распознавания речи на основе нейронных сетей: нейросети как классификаторы. |
![]() ![]() |
02.04.2021 |
Распознавание по эталонному словарю. | ![]() |
||
8 | Тандемные (TRAP, LC-RC, Bottleneck-признаки) и гибридные (CD-DNN-HMM) системы распознавания, обучение DNN-HMM (CLDNN, TDNN), последовательно-дискриминативное обучение (MMI, LF-MMI, MWE/MPE, sMBR), адаптация систем распознавания речи на основе нейронных сетей (VTLN, fMLLR-преобразование, дикторо-осведомлённое обучение, LIN, LHN, LON). |
![]() ![]() |
09.04.2021 |
DNN классификатор. | ![]() |
||
9 | Недостатки современных гибридных систем, Connectionist Temporal Classification (CTC), RNN-Transducer (RNN-T), Encoder-Decoder системы с механизмом внимания (AED), комбинации end-to-end подходов. |
![]() ![]() |
16.04.2021 |
10 | Факторы искажения речи и способы борьбы с ними (разнообразие стилей речи, меж- и внутридикторская вариативность, разнообразие условий записи), снижение вариативности входных данных (VTLN, шумоподавление, дереверберация), повышение вариативности обучающих данных (Multi-Condition Training, data augmentation). |
![]() ![]() |
23.04.2021 |
End-to-end ASR system, ESPnet. | ![]() |
||
Speech Synthesis | |||
11 | История создания говорящих машин. Системы синтеза речи на основе DNN. Нейронные вокодеры. Современные задачи и проблемы TTS. |
![]() ![]() |
15.05.2021 |
12 | Современные системы синтеза речи на основе DNN: основные компоненты и подходы к обучению (входные/выходные признаки, Encoder, Decoder, Vocoder), авторегрессионные методы (Tacotron, DeepVoice, TransformerTTS), неавторегрессионные (параллельные) методы (ForwardTacotron, ParallelTacotron, FastSpeech), Flow-based TTS (Flow-TTS, Flowtron), способы управления синтезируемой речью, Global Style Tokens, style transfer в задачах TTS. |
![]() ![]() |
22.05.2021 |
TTS Text & Audio Preprocessing, Forward Attention. | ![]() |
||
13 | Нейронные вокодеры: проблема восстановления фазы (алгоритм Гриффина-Лима), авторегрессионные модели вокодеров (WaveNet, WaveRNN, LPCNet), неавторегрессионные модели вокодеров (WaveGlow, HiFi-GAN), основные проблемы моделей вокодеров и нерешённые задачи. |
![]() ![]() |
29.05.2021 |
14 | Моделирование дыхания, пауз хетизации и других неречевых эффектов, проблемы разработки эмоционального TTS, проблемы разработки систем TTS для малоресурсных языков, TTS для голосов животных. |
![]() ![]() |
05.06.2021 |