Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models

Introduction

High-quality data resources are vital for training large language models (LLMs), especially for low-resource languages like Cantonese, which, despite having over 85 million native speakers, faces challenges due to the dominance of Mandarin, lack of community cohesion, diverse character encoding, and the use of English by overseas speakers. The rich colloquial vocabulary, English loanwords, and prevalent code-switching further complicate corpus collection and processing. To overcome these challenges, we collected diverse Cantonese texts from sources such as LIHKG, OpenRice, Wikipedia, and Common Crawl, employing rigorous filtering techniques for language identification, quality assurance, content filtering, and deduplication. This resulted in a high-quality corpus of over 2 billion tokens, which was used to train and fine-tune an LLM through supervised fine-tuning (SFT) on Cantonese-specific tasks. The model achieved state-of-the-art (SOTA) performance on four Cantonese benchmarks and also demonstrated improved performance on mainstream language tasks, underscoring the value of high-quality Cantonese data in enhancing overall LLM capabilities.

Files

.
├── Inference_Script
│   ├── Inference model initiation.txt
│   ├── qwen_llamaf_sft.py
│   └── qwen_lora_sft.yaml
├── README.md
├── Training_Frame
│   ├── CITATION.cff
│   ├── LICENSE
│   ├── MANIFEST.in
│   ├── Makefile
│   ├── data
│   │   ├── README.md
│   │   ├── README_zh.md
│   │   ├── alpaca_en_demo.json
│   │   ├── alpaca_zh_demo.json
│   │   ├── belle_multiturn
│   │   ├── c4_demo.json
│   │   ├── dataset_info.json
│   │   ├── dpo_en_demo.json
│   │   ├── dpo_zh_demo.json
│   │   ├── glaive_toolcall_en_demo.json
│   │   ├── glaive_toolcall_zh_demo.json
│   │   ├── hh_rlhf_en
│   │   ├── identity.json
│   │   ├── kto_en_demo.json
│   │   ├── mllm_demo.json
│   │   ├── mllm_demo_data
│   │   ├── mllm_video_demo.json
│   │   ├── ultra_chat
│   │   ├── wiki_demo.txt
│   │   ├── y_result.json
│   │   ├── y_result_label.json
│   │   └── yueyu20000.json
│   ├── docker
│   │   ├── docker-cuda
│   │   ├── docker-npu
│   │   └── docker-rocm
│   ├── evaluation
│   │   ├── ceval
│   │   ├── cmmlu
│   │   └── mmlu
│   ├── examples
│   │   ├── README.md
│   │   ├── README_zh.md
│   │   ├── accelerate
│   │   ├── deepspeed
│   │   ├── extras
│   │   ├── inference
│   │   ├── merge_lora
│   │   ├── train_full
│   │   ├── train_lora
│   │   └── train_qlora
│   ├── pyproject.toml
│   ├── requirements.txt
│   ├── scripts
│   │   ├── cal_flops.py
│   │   ├── cal_lr.py
│   │   ├── cal_mfu.py
│   │   ├── cal_ppl.py
│   │   ├── length_cdf.py
│   │   ├── llama_pro.py
│   │   ├── llamafy_baichuan2.py
│   │   ├── llamafy_qwen.py
│   │   ├── loftq_init.py
│   │   ├── pissa_init.py
│   │   ├── test_image.py
│   │   └── test_toolcall.py
│   ├── setup.py
│   ├── src
│   │   ├── api.py
│   │   ├── llamafactory
│   │   ├── train.py
│   │   └── webui.py
│   └── tests
│       ├── data
│       ├── e2e
│       ├── eval
│       └── model
└── fig
    ├── banner.jpg
    └── logo.jpg

Leaderboard

The following tables display the performance of models on different cantonese benchmarks (Yue-Truthful, Yue-GSM8K, Yue-ARC-C, Yue-MMLU) in the five-shot and zero-shot settings.

Yue-TruthfulQA

Results of the comparison between texts generated by YueTung-7b and baselines in Yue-TruthfulQA based on 0-shot and 5-shot settings and the ground truth.

Models (7-8b scale)	0-shot			5-shot
Models (7-8b scale)	Rouge-l	Bleu-4	BERTScore	Rouge-l	Bleu-4	BERTScore
Qwen-2.5-7b	18.51	12.28	66.07	6.83	8.07	58.97
Llama-3.1-8b	13.82	10.33	66.97	26.18	15.20	70.28
Yi-1.5-6b	1.21	4.60	42.15	1.04	6.15	53.85
Internlm-2.5-7b-chat	7.13	8.00	63.48	4.05	7.19	67.61
YueTung-7b	33.95	12.54	71.33	35.12	13.52	72.38

Models (> 7-8b scale)	0-shot			5-shot
Models (> 7-8b scale)	Rouge-l	Bleu-4	BERTScore	Rouge-l	Bleu-4	BERTScore
Qwen-2.5-72b	13.03	9.64	66.94	20.23	12.87	69.53
Mistral-large-2	19.72	13.01	69.06	31.38	18.61	72.07
Llama-3.1-70b	21.03	14.30	68.31	34.72	20.54	70.80
Phi-3-medium	18.70	12.00	67.36	22.00	13.72	67.57
Gemma-2-27b	8.09	8.44	64.41	11.33	9.98	63.66
Yi-1.5-34b	15.41	11.11	67.57	20.30	13.20	69.50
Internlm-2.5-20b-chat	6.96	7.73	62.99	3.28	6.06	66.99
ERNIE-Turbo	17.91	11.30	66.71	21.19	12.19	68.29
Sensechat-5	24.75	15.11	68.43	32.45	19.70	70.02
Claude-3.5	14.23	9.95	67.56	12.66	10.06	68.12
GLM-4	13.44	10.07	67.26	23.57	14.28	70.30
ChatGPT	25.07	14.81	67.78	31.84	18.42	70.41
GPT-4	19.47	13.45	68.99	28.43	16.74	71.26
YueTung-7b	33.95	12.54	71.33	35.12	13.52	72.38

Yue-GSM8k

Results of the comparison between answers generated by YueTung-7b and baselines in Yue-GSM8K based on 0-shot and 5-shot settings and ground truth.

Models (7-8b scale)	Acc. (0-shot)	Acc. (5-shot)
Qwen-2.5-7b	63.84	44.20
Llama-3.1-8b	63.91	61.64
Yi-1.5-6b	3.94	3.49
Internlm-2.5-7b-chat	65.96	64.67
YueTung-7b	84.65	86.46

Models (> 7-8b scale)	Acc. (0-shot)	Acc. (5-shot)
Qwen-2.5-72b	83.62	83.55
Mistral-large-2	80.14	81.27
Llama-3.1-70b	53.60	79.00
Phi-3-medium	59.29	63.15
Gemma-2-27b	9.70	2.65
Yi-1.5-34b	69.45	69.45
Internlm-2.5-20b-chat	71.87	72.33
ERNIE-turbo	14.03	10.92
SenseChat-5	77.48	73.16
Claude-3.5	77.79	81.27
GLM-4	78.17	77.10
ChatGPT	23.35	41.09
GPT-4	81.12	83.02
YueTung-7b	84.65	86.46

Yue-ARC-Challenge

Results of the comparison between answers generated by YueTung-7b and baselines in Yue-ARC-C based on 0-shot and 5-shot settings and ground truth.

Models (7-8b scale)	Acc. (0-shot)	Acc. (5-shot)
Qwen-2.5-7b	81.64	83.35
Llama-3.1-8b	69.00	67.81
Yi-1.5-6b	34.59	66.70
Internlm-2.5-7b-chat	81.21	79.85
YueTung-7b	93.48	94.65

Models (> 7-8b scale)	Acc. (0-shot)	Acc. (5-shot)
Qwen-2.5-72b	92.74	92.91
Mistral-large-2	89.50	90.61
Llama-3.1-70b	88.98	88.39
Phi-3-medium	77.63	78.31
Gemma-2-27b	67.98	55.59
Yi-1.5-34b	84.88	86.42
Internlm-2.5-20b-chat	82.15	82.58
ERNIE-turbo	44.41	46.46
SenseChat-5	88.47	87.28
Claude-3.5	91.55	92.23
GLM-4	88.90	88.73
ChatGPT	69.68	70.71
GPT-4	92.66	92.06
YueTung-7b	93.48	94.65

Yue-MMLU

Results of the comparison between texts generated by YueTung-7b and baselines in Yue-MMLU based on 0-shot and 5-shot settings and the correct texts.

Models (7-8b scale)	0-shot					5-shot
Models (7-8b scale)	STEM	Hum.	S.S.	C.S.	Oth.	STEM	Hum.	S.S.	C.S.	Oth.
Qwen-2.5-7b	72.86	81.66	78.25	66.56	75.19	78.05	80.37	78.99	69.82	78.86
Llama-3.1-8b	45.96	58.27	56.08	44.86	53.70	53.45	58.06	58.31	45.86	53.65
Yi-1.5-6b	17.34	35.98	38.77	32.90	25.00	58.53	67.89	66.56	60.00	62.05
Internlm-2.5-7b-chat	64.40	80.92	76.80	70.24	75.02	65.04	80.84	76.79	70.47	75.19
YueTung-7b	93.01	92.54	89.84	90.81	91.55	93.36	93.27	91.04	91.77	91.85

Models (> 7-8b scale)	0-shot					5-shot
Models (> 7-8b scale)	STEM	Hum.	S.S.	C.S.	Oth.	STEM	Hum.	S.S.	C.S.	Oth.
Qwen-2.5-72b	83.72	87.88	87.20	80.68	85.36	83.89	89.70	88.75	82.34	87.42
Mistral-large-2	60.38	76.08	74.92	60.19	70.74	68.50	79.65	78.84	63.85	71.66
Llama-3.1-70b	67.32	76.57	76.93	60.96	73.56	72.23	78.13	78.23	64.16	74.90
Phi-3-medium	45.26	61.42	58.40	45.65	51.33	49.88	59.33	59.35	45.49	53.02
Gemma-2-27b	48.50	54.05	53.32	36.92	48.22	40.62	41.72	43.81	32.99	46.03
Yi-1.5-34b	68.48	81.92	81.74	70.89	79.76	74.13	85.12	83.38	78.20	80.30
Internlm-2.5-20b-chat	67.16	81.56	77.72	73.05	72.64	66.22	82.65	78.42	72.94	74.03
ERNIE-turbo	43.34	56.05	53.97	52.02	44.82	41.01	57.66	54.28	49.49	46.95
Sensechat-5	69.97	83.21	80.73	73.86	76.95	68.98	82.00	79.88	73.52	74.77
Claude-3.5	66.47	76.84	78.04	60.60	75.98	75.92	81.65	84.24	62.83	82.54
GLM-4	64.23	84.39	80.06	75.66	75.75	72.18	84.20	80.07	76.00	78.06
ChatGPT	49.78	58.13	58.74	45.46	52.42	60.28	59.81	60.61	47.50	54.54
GPT-4	67.68	75.29	77.26	60.12	74.46	71.19	76.75	77.56	63.50	74.57
YueTung-7b	93.01	92.54	89.84	90.81	91.55	93.36	93.27	91.04	91.77	91.85

Data

We provide our SFT dataset according to each subject in data folder.

Data Format

SFT Dataset a json file, which is the format of history, input, output, instruction and system.

Here are two examples:

{
        "history": [
            [
                "點樣先可以協調多方嘅意見？",
                "要協調多方意見，以下係一啲可能有用嘅步驟：\n\n1. 確定各方嘅關注點同需求。同每個人單獨傾談，聽取佢哋嘅意見同擔憂，了解佢哋嘅目標同利益。\n\n2. 尋求共同點。嘗試搵出各方面之間嘅共同點，呢啲共同點可以成為合作嘅基礎。\n\n3. 提出解決方案。讓各方都參與到解決問題嘅過程入面，提出多種解決方案，並討論呢啲方案嘅優缺點。\n\n4. 探討妥協方案。針對各方嘅需求同擔憂，搵出一種相對平衡嘅妥協方案。\n\n5. 溝通同透明度。在整個協調過程入面，保持溝通同透明度，確保各方都清楚地了解進展情況同決策結果。\n\n6. 尊重各方意見。尊重各方嘅意見，聽取佢哋嘅觀點，盡可能地為每個人提供平等嘅機會同發言權。\n\n呢啲步驟可以幫助你協調多方意見，實現合作同共贏嘅目標。"
            ],
            [
                "喺項目管理中，點樣處理進度延遲嘅情況？",
                "喺項目管理中，進度滯後係常見嘅問題。以下係應對進度滯後嘅一些方法：\n\n1. 識別問題。及早識別進度滯後嘅原因同影響，計劃同實際進度之間嘅差距有幾大，以及乜嘢導致咗差距。\n\n2. 重新評估計劃。基於當前嘅情況，重新評估項目計劃，確定新嘅時間表同目標。呢個可能需要更改任務嘅優先級、資源分配同時間表。\n\n3. 重新分配資源。重新分配資源，確保項目團隊有足夠嘅人員同材料嚟加快進程。呢個可能需要增加資源或者重新安排資源嘅優先級。\n\n4. 制定行動計劃。制定一個詳細嘅行動計劃，畀出必要嘅行動同時間表。呢種行動計劃應該明確闡述團隊成員所需嘅任務同責任，以及每個人應該喺乜嘢時間完成佢哋。\n\n5. 管理風險。在考慮解決進度滯後嘅問題時，應該考慮到風險管理。呢個可能需要重新評估項目嘅風險，制定新嘅風險計劃，以及重新分配資源嚟應對風險。\n\n6. 溝通同透明。在整個過程中，保持溝通同透明度，確保團隊成員知道項目嘅當前狀態同目標。呢個將會幫助佢哋更好咁了解佢哋嘅職責同目標，以及點樣實現佢哋。\n\n呢啲方法可以幫助你處理項目進度滯後嘅情況，確保你成功咁完成項目。"
            ],
            [
                "點解風險管理喺處理進度延遲問題嗰陣好重要？",
                "風險管理喺處理進度滯後問題時非常重要，因為風險可能係導致進度滯後嘅主要原因之一。以下係幾個原因：\n\n1. 風險會導致項目變更。如果項目面臨風險，可能需要重新評估項目計劃或重新安排資源，這可能導致項目嘅時間表同進度發生變化。\n\n2. 風險會增加項目嘅不確定性。風險可能會導致不確定性，這使得難以準確預測項目進度。呢種不確定性可能會導致進度滯後，因為團隊無法準確預測項目嘅進展情況。\n\n3. 風險可能會導致成本增加。如果面臨風險，可能需要分配更多嘅資源來應對風險，這可能會導致成本增加，從而導致進度滯後。\n\n4. 風險可能會導致任務延遲。如果面臨風險，可能需要重新安排任務，這可能會導致任務嘅延遲，從而導致項目進度滯後。\n\n因此，喺處理進度滯後問題時，風險管理非常重要。通過識別同管理風險，項目團隊可以減少風險對項目進度嘅影響，並確保項目能夠按計劃完成。"
            ],
            [
                "風險管理嘅流程包括咩步驟？",
                "風險管理係項目管理嘅重要組成部分，佢包括以下步驟：\n\n1. 風險識別：通過識別潛在嘅風險，以及佢哋可能對項目造成嘅影響，為項目制定一個風險清單。呢個清單應該包括所有可能嘅風險，包括技術風險、人員風險、財務風險等。\n\n2. 風險分析：分析每個風險嘅可能性同影響程度，以確定邊啲風險係最值得關注嘅。呢個過程可以採用定量同定性分析嘅方法，以便更加準確噉評估風險。\n\n3. 風險評估：通過比較風險嘅可能性同影響程度，確定邊啲風險需要採取措施來管理同控制。喺呢個過程中，應該確定風險嘅優先級，以便更好噉分配資源。\n\n4. 風險控制：確定點樣控制同管理風險，以便減少風險對項目嘅影響。喺呢個過程中，應該制定風險應對計劃，以便喺出現風險時能夠快速採取行動。\n\n5. 風險監測：監測風險嘅變化，以及實施嘅風險管理策略嘅效果點樣。喺呢個過程中需要根據實際情況調整風險管理策略，以確保風險得到控制。\n\n6. 風險溝通：確保風險信息得到及時同適當嘅溝通，以便項目團隊同其他相關人員都了解項目嘅風險狀況。噉樣能夠幫助團隊做出更好嘅決策，更好噉應對風險。\n\n呢啲步驟可以確保項目團隊能夠全面噉處理項目入面嘅風險，控制風險對項目嘅影響，從而更好噉完成項目。"
            ]
        ],
        "input": "",
        "instruction": "喺軟件開發過程中，點樣實現代碼嘅複用？",
        "output": "代碼複用係軟件開發過程中實現高效開發同可維護性嘅重要方法。以下係一啲實現代碼複用嘅方法：\n\n1. 函數同類嘅封裝：通過將相似嘅功能封裝喺函數同類中，可以避免重複編寫代碼。呢啲函數同類可以喺唔同嘅項目中重複使用。\n\n2. 庫嘅使用：使用開源或專有庫，可以避免編寫大量嘅代碼，提高軟件開發效率。呢啲庫包含咗好多常用功能嘅實現，例如數據存儲、用戶身份驗證等。\n\n3. 模板嘅使用：使用模板可以幫助開發人員快速創建新項目。呢啲模板包括項目結構、文件夾結構、代碼結構等，可以大大減少開發人員嘅工作量。\n\n4. 設計模式嘅使用：使用常用嘅設計模式可以減少代碼嘅複雜度同冗餘。例如，單例模式、工廠模式等可以避免重複創建相同嘅對象，提高代碼嘅可維護性。\n\n5. 組件嘅使用：將代碼組織為可重複使用嘅組件，可以方便地將佢哋應用於唔同嘅項目。組件可以係獨立嘅模塊，例如用戶界面組件、數據訪問組件等。\n\n6. 框架嘅使用：使用框架可以提高軟件開發效率，並確保代碼嘅質量。框架提供咗好多常用嘅功能同數據結構嘅實現，例如MVC框架等。\n\n呢啲方法可以幫助開發人員喺軟件開發過程中實現代碼嘅複用，提高開發效率同代碼質量。",
        "system": ""
    },
    {
        "history": [
            [
                "我應該點樣做先可以喺小組合作中得到大家嘅認可？",
                "要喺小組合作中得到大家嘅認可，您可以遵循以下建議：\n\n1. 建立良好嘅溝通：與小組成員建立開放、尊重同正面嘅溝通，讓大家都能夠表達自己嘅睇法同想法，並且聆聽他人嘅意見。\n\n2. 展現您嘅貢獻：喺小組中展現您嘅能力同貢獻，向小組成員展示您嘅專業技能同知識，並且積極參與小組活動。\n\n3. 接受反饋：當遇到困難時，接受來自小組成員嘅反饋同建議，並且積極改進，以提高整個小組嘅表現。\n\n4. 負責任同可靠：喺小組中表現出責任感同可靠性，完成自己嘅工作任務並且遵守小組嘅規則同承諾。\n\n5. 建立良好嘅人際關係：喺小組中建立良好嘅人際關係，與小組成員建立友好嘅關係，並且喺合作中互相支持同幫助。\n\n希望呢些建議能夠對您有所幫助，祝您喺小組合作中取得成功！"
            ],
            [
                "如果有人喺小組中表現唔好，點樣處理呢？",
                "當小組中有人表現唔佳時，您可以考慮以下幾種處理方式：\n\n1. 私下溝通：同嗰個成員進行私下溝通，關注佢哋嘅表現並且尋求解決方案。在溝通時，請保持冷靜同尊重，並且關注嗰個成員嘅困難同需要。\n\n2. 分配工作：重新分配小組工作，讓嗰個成員可以擔任適合佢哋嘅角色同職責。噉樣可以幫助嗰個成員更好地發揮自己嘅能力，同時都可以提高小組嘅整體表現。\n\n3. 提供支持：如果嗰個成員需要額外嘅支持或培訓，請提供相應嘅資源同幫助。噉樣可以幫助嗰個成員提高自己嘅能力，同時都可以提高小組嘅整體表現。\n\n4. 討論解決方案：將嗰個成員嘅表現同困難帶到小組討論中，尋找解決方案同方法。透過討論同合作，可以搵到最適合嘅解決方案，同時都可以提高整個小組嘅表現。\n\n如果嗰個成員嘅表現持續唔佳，您可能需要考慮進一步嘅處理方式，例如同嗰個成員嘅主管進行溝通或者重新分配小組成員嘅角色同職責。無論採取何種處理方式，請保持尊重同專業，並且關注小組嘅整體表現。"
            ],
            [
                "如果小組入面有人唔遵守規定，應該點處理呢？",
                "如果小組中有人唔遵守規定，您可以考慮以下幾種處理方式：\n\n1. 私下溝通：同嗰個成員進行私下溝通，關注佢哋嘅行為並且尋求解決方案。在溝通時，請保持冷靜同尊重，並且關注嗰個成員嘅困難同需要。\n\n2. 澄清規則：澄清小組嘅規則同期望，讓所有成員都能夠理解規則嘅重要性以及遵守規則嘅必要性。同時都可以討論邊啲規則需要調整或更新。\n\n3. 討論後果：討論唔遵守規則嘅後果，讓所有成員都能夠理解唔遵守規則嘅嚴重性以及後果。同時都可以討論點樣幫助嗰個成員改正行為。\n\n4. 採取行動：如果嗰個成員嘅行為持續唔當，您可能需要採取行動，例如暫時禁止嗰個成員參與小組活動，或者將嗰個成員從小組中移除。\n\n最重要嘅係，請保持尊重同專業，關注小組嘅整體表現，並且確保每個成員都能夠遵守小組嘅規則同期望。"
            ],
            [
                "如果小組中出現咗矛盾，我應該點樣處理呢？",
                "如果小組中出現咗矛盾，您可以考慮以下幾種處理方式：\n\n1. 私下溝通：同矛盾嘅成員進行私下溝通，聆聽佢哋嘅意見同睇法，並且尋求解決方案。在溝通時，請保持冷靜同尊重，並且關注每個成員嘅需求。\n\n2. 討論解決方案：將矛盾帶到小組討論中，讓所有成員都能夠參與討論，並且尋找最適合嘅解決方案。在討論時，請保持尊重同專業，並且關注小組嘅整體利益同表現。\n\n3. 尋求外部幫助：如果矛盾難以解決，您可以考慮尋求外部幫助，例如尋求專業嘅輔導或者求助主管或其他相關人員嘅協助。\n\n4. 採取行動：如果矛盾嚴重影響咗小組嘅表現同氛圍，您可能需要採取行動，例如重新分配小組成員嘅角色同職責，或者將矛盾嘅成員從小組中移除。\n\n最重要嘅係，請保持尊重同專業，關注小組嘅整體表現，並且確保每個成員都能夠喺一個和諧、尊重同支持嘅環境中合作。"
            ]
        ],
        "input": "",
        "instruction": "如果小組成員缺乏動力點樣？",
        "output": "如果小組成員缺乏動力，您可以考慮以下幾種處理方法：\n\n1. 找出原因：了解成員缺乏動力的原因，例如是否缺乏挑戰性嘅任務、缺乏反饋或獎勵、或者是否有其他個人或工作上嘅問題。透過了解原因，可以更好地幫助成員搵到解決方案。\n\n2. 提供支持：提供相應嘅支持同資源，例如提供培訓或者提供更適合嘅任務。噉樣可以幫助成員重拾動力，同時都可以提高小組嘅整體表現。\n\n3. 討論目標：討論小組嘅目標同方向，讓成員了解自己嘅貢獻同重要性。同時都可以討論點樣令小組嘅目標更具吸引力同挑戰性。\n\n4. 激勵同鼓勵：激勵同鼓勵成員，讓佢哋感受到自己嘅工作同貢獻嘅價值。透過肯定同獎勵，可以提高成員嘅動力同積極性。\n\n最重要嘅係，請保持尊重同專業，關注每個成員嘅需要同貢獻，並且確保小組能夠喺一個支持同鼓勵嘅環境中合作。",
        "system": ""
    }

Evaluation

The code for evaluation of each model we used is in src, and the code examples to run them is listed in script directory.

For example,

cd Inference_Script
python qwen_llamaf_sft.py

Citation

@misc{jiang2025developingutilizinglargescalecantonese,
      title={Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models}, 
      author={Jiyue Jiang and Alfred Kar Yin Truong and Yanyu Chen and Qinghang Bao and Sheng Wang and Pengan Chen and Jiuming Wang and Lingpeng Kong and Yu Li and Chuan Wu},
      year={2025},
      eprint={2503.03702},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.03702}, 
}

@inproceedings{zheng2024llamafactory,
  title = {LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models},
  author = {Yaowei Zheng and Richong Zhang and Junhao Zhang and Yanhan Ye and Zheyan Luo and Zhangchi Feng and Yongqiang Ma},
  booktitle = {Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)},
  year = {2024},
  address = {Bangkok, Thailand},
  publisher = {Association for Computational Linguistics},
  url = {https://arxiv.org/abs/2403.13372}
}

License

The Cantonese dataset is licensed under a MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
Data_Process		Data_Process
Inference_Script		Inference_Script
Scrapers		Scrapers
Training_Frame		Training_Frame
fig		fig
.gitattributes		.gitattributes
.gitmodules		.gitmodules
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models

Introduction

Files

Leaderboard

Data

Data Format

Evaluation

Citation

License

About

Uh oh!

Releases

Packages

Contributors 4

Uh oh!

Languages

jiangjyjy/Cantonese_LLM

Folders and files

Latest commit

History

Repository files navigation

Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models

Introduction

Files

Leaderboard

Data

Data Format

Evaluation

Citation

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Uh oh!

Languages

Packages