MandarinDialectTranslator是一個結合LLM及RAG來實現的翻譯大陸用語的視覺化界面。使用者可以輕易地使用此程式來翻譯大陸用語及下載聊天紀錄。
- 將大陸用語翻譯成台灣用語
- 下載聊天紀錄
- 首先對輸入的文字進行POS(詞性標註)。
- 提取出詞性為名詞、動詞、形容詞、量詞的單字。
- 對大陸用語資料集進行比對。
- 提取出與之匹配的資料。
- 傳遞給LLM
Clone the repo:
git clone git@github.com:qaz45647/MandarinDialectTranslator.git
cd MandarinDialectTranslator
Create a conda environment:
conda create -n MandarinDialectTranslator python=3.9
conda activate MandarinDialectTranslator
Use pip to install required packages:
pip install -r requirements.txt
Move to MandarinDialectTranslator folder:
cd MandarinDialectTranslator
Set gemini key
在檔案api_key.txt中放入自己的api key
Execute app.py:
python app.py
翻譯的準確性取決於LLM本身的知識及資料集的內容。欲擴充資料集,使用者可於ch.csv中進行新增或修改資料。
models:
- gemini-1.5-flash
- zh_core_web_trf
dataset: