Исправление бага обучения

anyks · anyks · commit cc11465b5e7b · 2020-09-20T00:35:25.000+03:00
diff --git a/ChangeLog.md b/ChangeLog.md
@@ -1,5 +1,7 @@
 # [Change Log](https://github.com/anyks/asc/archive/release.tar.gz)
 
+## [1.2.1](https://github.com/anyks/asc/archive/v1.2.1.tar.gz) Bug fixes
+
 ## [1.2.0](https://github.com/anyks/asc/archive/v1.2.0.tar.gz) Bug fixes
 
 ## [1.1.9](https://github.com/anyks/asc/archive/v1.1.9.tar.gz) Other optimization
diff --git a/app/asc.cpp b/app/asc.cpp
@@ -5405,6 +5405,35 @@ int main(int argc, char * argv[]) noexcept {
 							case 2: pss.status(100); break;
 						}
 						// Если отладка включена, выводим индикатор загрузки
+						if(debug > 0){
+							// Очищаем предыдущий прогресс-бар
+							pss.clear();
+							// Устанавливаем заголовки прогресс-бара
+							pss.title("Read language model", "Read language model, is done");
+							// Выводим индикатор прогресс-бара
+							switch(debug){
+								case 1: pss.update(); break;
+								case 2: pss.status(); break;
+							}
+						}
+						// Устанавливаем размер N-граммы
+						alm->setSize(toolkit.getSize());
+						// Выполняем извлечение языковой модели
+						toolkit.saveArpa([&](const vector <char> & buffer, const u_short status){
+							// Устанавливаем данные языковой модели
+							alm->setBin(buffer);
+							// Отображаем ход процесса
+							switch(debug){
+								case 1: pss.update(status); break;
+								case 2: pss.status(status); break;
+							}
+						}, true);
+						// Отображаем ход процесса
+						switch(debug){
+							case 1: pss.update(100); break;
+							case 2: pss.status(100); break;
+						}
+						// Если отладка включена, выводим индикатор загрузки
 						if(debug > 0){
 							// Очищаем предыдущий прогресс-бар
 							pss.clear();
diff --git a/app/asc.hpp b/app/asc.hpp
@@ -9,7 +9,7 @@
 // Название языковой модели
 #define ANYKS_ASC_NAME "asc"
 // Версия приложения
-#define ANYKS_ASC_VERSION "1.2.0"
+#define ANYKS_ASC_VERSION "1.2.1"
 // Версия словаря
 #define ANYKS_ASC_DICT_VERSION "1.0.1"
 // Автор приложения
diff --git a/src/dict.cpp b/src/dict.cpp
@@ -855,93 +855,96 @@ const pair <size_t, size_t> anyks::Dict::find(const word_t & word, dumper_t & dm
 		hypothesis.etalon = word.wreal();
 		// Выполняем получение максимального количества ошибок для слова
 		const u_short errors = this->alphabet->errors(word);
-		/**
-		 * findFn Функция извлечения слова из базы
-		 * @param idw идентификатор слова
-		 */
-		auto findFn = [&](const size_t idw){
-			// Получаем данные слова
-			auto it = this->words.find(idw);
-			// Если такое слово существует
-			if(it != this->words.end()){
-				// Выполняем блокировки потока
-				this->locker.lock();
-				// Устанавливаем идентификатор гипотезы
-				hypothesis.idw = idw;
-				// Получаем дистанцию
-				hypothesis.lev = (errors > 1 ? algorithms.distance(word, it->second) : algorithms.damerau(word, it->second));
-				// Отфильтровываем ненужные нам слова
-				if(!it->second.empty() && (hypothesis.lev <= errors)){
-					// Извлекаем слово из списка
-					hypothesis.word = it->second;
-					// Устанавливаем значение Танимото
-					hypothesis.tmo = algorithms.tanimoto(word, hypothesis.word);
-					// Если расстояние Левенштейна слишком большое, тогда Танимото должен быть больше 4.0
-					if((hypothesis.lev <= 3) || (hypothesis.tmo >= 0.4)){
-						// Если вывод отладочной информации разрешён
-						if(this->isOption(options_t::debug)){
-							// Выводим основное сообщение отладки
-							this->alphabet->log("find word: [%s => %s]\r\n", alphabet_t::log_t::info, this->logfile, word.real().c_str(), hypothesis.word.real().c_str());
-						}
-						// Добавляем вариант в дампер
-						const auto & res = dmp.smart(hypothesis, size);
-						// Если вариант добавлен, запоминаем позицию
-						if(res.second > 0){
-							// Увеличиваем количество добавленных вариантов
-							result.second++;
-							// Запоминаем новую позицию
-							result.first = res.first;
+		// Если количество ошибок больше 0
+		if(errors > 0){
+			/**
+			 * findFn Функция извлечения слова из базы
+			 * @param idw идентификатор слова
+			 */
+			auto findFn = [&](const size_t idw){
+				// Получаем данные слова
+				auto it = this->words.find(idw);
+				// Если такое слово существует
+				if(it != this->words.end()){
+					// Выполняем блокировки потока
+					this->locker.lock();
+					// Устанавливаем идентификатор гипотезы
+					hypothesis.idw = idw;
+					// Получаем дистанцию
+					hypothesis.lev = (errors > 1 ? algorithms.distance(word, it->second) : algorithms.damerau(word, it->second));
+					// Отфильтровываем ненужные нам слова
+					if(!it->second.empty() && (hypothesis.lev <= errors)){
+						// Извлекаем слово из списка
+						hypothesis.word = it->second;
+						// Устанавливаем значение Танимото
+						hypothesis.tmo = algorithms.tanimoto(word, hypothesis.word);
+						// Если расстояние Левенштейна слишком большое, тогда Танимото должен быть больше 4.0
+						if((hypothesis.lev <= 3) || (hypothesis.tmo >= 0.4)){
+							// Если вывод отладочной информации разрешён
+							if(this->isOption(options_t::debug)){
+								// Выводим основное сообщение отладки
+								this->alphabet->log("find word: [%s => %s]\r\n", alphabet_t::log_t::info, this->logfile, word.real().c_str(), hypothesis.word.real().c_str());
+							}
+							// Добавляем вариант в дампер
+							const auto & res = dmp.smart(hypothesis, size);
+							// Если вариант добавлен, запоминаем позицию
+							if(res.second > 0){
+								// Увеличиваем количество добавленных вариантов
+								result.second++;
+								// Запоминаем новую позицию
+								result.first = res.first;
+							}
 						}
 					}
+					// Выполняем разблокировки потока
+					this->locker.unlock();
 				}
-				// Выполняем разблокировки потока
-				this->locker.unlock();
-			}
-		};
-		// Если нужно выполнять исправление опечаток
-		if(this->isOption(options_t::onlytypos)){
-			// Получаем список всех возможных векторов слова
-			auto vectors = this->vecsb(word);
-			// Если список получен
-			if(!vectors.empty()){
-				// Выполняем инициализацию пула потоков
-				this->start();
-				// Переходим по всему списку векторов
-				for(auto & vector : vectors){
-					// Получаем диапазон значений вектора
-					auto ret = this->vectors.equal_range(vector);
-					// Перебираем весь диапазон полученных векторов
-					for(auto it = ret.first; it != ret.second; ++it){
-						// Выполняем добавление полученного слова
-						this->tpool->push(findFn, it->second);
-					}
-				}
-				// Ожидаем завершения работы всех потоков
-				this->finish();
-			}
-		// Если hnsw загружен
-		} else if(!this->hnsw.empty()) {
-			// Создаёс эмбеддинг слова
-			const auto & embedding = this->vec(word);
-			// Если эмбеддинг получен
-			if(!embedding.empty()){
-				// Множитель для расчёта максимального количества вариантов
-				vector <double> factor = {0.25, 0.5, 0.75, 1};
-				// Получаем количество элементов для выдачи
-				const size_t count = pow(10, floor(log10(words.size())));
-				// Получаем количество максимаольно-возможных вариантов для рассмотрения
-				const size_t nswlibCount = (factor.at(errors - 1) * this->nswlibCount);
-				// Запрашиваем nswlibCount вариантов
-				const auto & res = this->hnsw.query({embedding}, (count < nswlibCount ? count : nswlibCount));
-				// Если список вариантов получен
-				if(!res.first.empty()){
+			};
+			// Если нужно выполнять исправление опечаток
+			if(this->isOption(options_t::onlytypos)){
+				// Получаем список всех возможных векторов слова
+				auto vectors = this->vecsb(word);
+				// Если список получен
+				if(!vectors.empty()){
 					// Выполняем инициализацию пула потоков
 					this->start();
-					// Переходим по всему списку вариантов
-					for(auto & idw : res.first) this->tpool->push(findFn, idw);
+					// Переходим по всему списку векторов
+					for(auto & vector : vectors){
+						// Получаем диапазон значений вектора
+						auto ret = this->vectors.equal_range(vector);
+						// Перебираем весь диапазон полученных векторов
+						for(auto it = ret.first; it != ret.second; ++it){
+							// Выполняем добавление полученного слова
+							this->tpool->push(findFn, it->second);
+						}
+					}
 					// Ожидаем завершения работы всех потоков
 					this->finish();
 				}
+			// Если hnsw загружен
+			} else if(!this->hnsw.empty()) {
+				// Создаёс эмбеддинг слова
+				const auto & embedding = this->vec(word);
+				// Если эмбеддинг получен
+				if(!embedding.empty()){
+					// Множитель для расчёта максимального количества вариантов
+					vector <double> factor = {0.25, 0.5, 0.75, 1};
+					// Получаем количество элементов для выдачи
+					const size_t count = pow(10, floor(log10(words.size())));
+					// Получаем количество максимаольно-возможных вариантов для рассмотрения
+					const size_t nswlibCount = (factor.at(errors - 1) * this->nswlibCount);
+					// Запрашиваем nswlibCount вариантов
+					const auto & res = this->hnsw.query({embedding}, (count < nswlibCount ? count : nswlibCount));
+					// Если список вариантов получен
+					if(!res.first.empty()){
+						// Выполняем инициализацию пула потоков
+						this->start();
+						// Переходим по всему списку вариантов
+						for(auto & idw : res.first) this->tpool->push(findFn, idw);
+						// Ожидаем завершения работы всех потоков
+						this->finish();
+					}
+				}
 			}
 		}
 	}
diff --git a/src/spl.cpp b/src/spl.cpp
@@ -875,7 +875,7 @@ void anyks::ASpell::spell(wstring & text, const u_short options, vector <vector
 					}
 				}
 				// Если слово не существует, пытаемся его исправить.
-				if(idw == idw_t::NIDW){
+				if((word.length() > 1) && (idw == idw_t::NIDW)){
 					// Очищаем кэш последовательности
 					if(info != nullptr) cache.clear();
 					// Выполняем поиск варианта слова
@@ -1224,7 +1224,7 @@ void anyks::ASpell::analyze(const wstring & text, const u_short options, vector
 					}
 				}
 				// Если слово не существует, пытаемся его исправить.
-				if(idw == idw_t::NIDW){
+				if((word.length() > 1) && (idw == idw_t::NIDW)){
 					// Очищаем кэш последовательности
 					cache.clear();
 					// Выполняем поиск варианта слова

Original file line number	Diff line number	Diff line change
`@@ -875,7 +875,7 @@ void anyks::ASpell::spell(wstring & text, const u_short options, vector <vector`
`875`	`875`	`}`
`876`	`876`	`}`
`877`	`877`	`// Если слово не существует, пытаемся его исправить.`
`878`		`- if(idw == idw_t::NIDW){`
	`878`	`+ if((word.length() > 1) && (idw == idw_t::NIDW)){`
`879`	`879`	`// Очищаем кэш последовательности`
`880`	`880`	`if(info != nullptr) cache.clear();`
`881`	`881`	`// Выполняем поиск варианта слова`
`@@ -1224,7 +1224,7 @@ void anyks::ASpell::analyze(const wstring & text, const u_short options, vector`
`1224`	`1224`	`}`
`1225`	`1225`	`}`
`1226`	`1226`	`// Если слово не существует, пытаемся его исправить.`
`1227`		`- if(idw == idw_t::NIDW){`
	`1227`	`+ if((word.length() > 1) && (idw == idw_t::NIDW)){`
`1228`	`1228`	`// Очищаем кэш последовательности`
`1229`	`1229`	`cache.clear();`
`1230`	`1230`	`// Выполняем поиск варианта слова`