👉 Google Colab / F5-TTS-VN-hynt.ipynb
Tính năng | Mô tả |
---|---|
Text-to-Speech | Chuyển đổi văn bản tiếng Việt thành giọng nói tự nhiên |
Voice Cloning | Nhân bản giọng nói từ mẫu âm thanh reference |
Tốc độ linh hoạt | Tùy chỉnh tốc độ phát âm theo nhu cầu |
Tạo khoảng lặng | Tùy chỉnh khoảng im lặng bất kì trong văn bản đầu vào, tăng chân thật |
- GPU: vì dùng CPU rất chậm và không ổn định (T4 trở lên trên Google Colab)
# Chuyển Runtime sang GPU trong Google Colab
# Thời gian khởi động: 2-3 phút
Chọn một trong hai phương pháp:
- Thêm thư mục Models vào "My Drive"
- Chạy mount Google Drive
- Tải trực tiếp từ repository
- Lưu ý: Chậm hơn và kém ổn định
- Google Drive: Cần cấu hình đường dẫn
- Hugging Face: Tự động, không cần cấu hình
# Thời gian khởi động lần đầu: 2-3 phút
# Chờ đến khi xuất hiện URL: https://xxxxxxxxxxx.gradio.live
Thành phần | Mô tả | Ghi chú |
---|---|---|
Sample Voice | Upload file âm thanh ref_audio |
6-15 giây, chất lượng cao, không tạp âm |
Text | Nhập gen_text cần chuyển đổi |
sửa app.py bỏ/tăng giới hạn 10000 words |
Reference Text | Nội dung của ref_audio |
Nếu ref_audio rõ ràng thì nên bỏ trống, auto transcribe |
Generate Voice | Nút bắt đầu chuyển đổi | Kết quả hiển thị phía dưới |
🎯 TÍNH NĂNG ĐẶC BIỆT: F5-TTS Vietnamese hỗ trợ tạo khoảng im lặng có chủ đích trong văn bản!
<<<sil#{number_milisecond}>>>
Thông số | Mô tả | Phạm vi |
---|---|---|
number_milisecond | Thời gian im lặng (mili giây) | 100 - 20,000 ms |
Làm tròn | Tự động làm tròn số | 110→100, 150→200, 9990→10000 |
# Khoảng lặng 1 giây
Xin chào <<<sil#1000>>> các bạn!
# Khoảng lặng 2 giây
Câu đầu tiên. <<<sil#2000>>> Câu thứ hai.
# Khoảng lặng 500ms
Đây là <<<sil#500>>> một ví dụ ngắn.
# Khoảng lặng trong văn bản dài
Chương một <<<sil#1500>>> nói về lịch sử. <<<sil#1000>>> Chương hai <<<sil#2000>>> nói về tương lai.
# SAI: Thiếu khoảng trắng trước
Xin chào<<<sil#1000>>> các bạn!
# SAI: Thiếu khoảng trắng sau
Xin chào <<<sil#1000>>>các bạn!
# SAI: Thiếu cả hai khoảng trắng
Xin chào<<<sil#1000>>>các bạn!
# SAI: Chèn giữa từ (gây phát âm sai)
tuoi <<<sil#1000>>> tre.com # Đọc: "Tuổi tê rờ e chấm cơm"
Mô tả | Ví dụ | |
---|---|---|
Khoảng trắng bắt buộc | Phải có space trước và sau | text <<<sil#1000>>> text |
Không tách từ | Không chèn giữa từ/cụm từ | ❌ VN <<<sil#1000>>> ESE |
Số dương | Chỉ dùng số nguyên dương | 100-20,000 |
Cú pháp chính xác | Đúng format với dấu < > # | <<<sil#1000>>> |
<<<sil#1000>>>- # Có ký tự không phải space
<<<sil#-1000>>> # Số âm
<<<sil#>>> # Thiếu số
<<<silnce#1000>>> # Sai chính tả
<<<si#1000>>> # Thiếu chữ 'l'
<<sil#1000>> # Thiếu dấu <
<<<sil@1000>>> # Sai ký tự @
# Tạo nhịp cho bài thơ
Mùa xuân đến rồi <<<sil#1000>>>
Hoa nở khắp nơi <<<sil#1500>>>
Chim ca líu lo <<<sil#1000>>>
Lòng ta vui thơ <<<sil#2000>>>
# Tạo khoảng lặng trong bài thuyết trình
Xin chào mọi người! <<<sil#1000>>> Hôm nay tôi sẽ trình bày về <<<sil#500>>> công nghệ AI.
# Tạo hiệu ứng kịch tính
Và kết quả là <<<sil#2000>>> thành công hoàn toàn!
Thời gian | Ứng dụng | Ví dụ |
---|---|---|
100-300ms | Ngắt nhẹ | Dấu phẩy <<<sil#200>>> ngắt câu |
500-1000ms | Ngắt vừa | Kết thúc câu <<<sil#800>>> bắt đầu câu mới |
1000-2000ms | Ngắt rõ ràng | Chuyển chủ đề <<<sil#1500>>> nội dung mới |
2000ms+ | Ngắt dài | Hiệu ứng kịch tính <<<sil#3000>>> |
💡 MẸO: Sử dụng khoảng im lặng giúp văn bản nghe tự nhiên hơn, tạo nhịp điệu và dễ theo dõi!
Vấn đề | Nguyên nhân | Giải pháp |
---|---|---|
Lỗi OOM | Thiếu bộ nhớ | Giảm batch size hoặc độ dài text |
Model không load | Đường dẫn sai | Kiểm tra đường dẫn file model |
Chất lượng âm thanh kém | File reference kém | Sử dụng file âm thanh chất lượng cao |
Thống kê thực tế: Với văn bản Lão Hạc (~16,000 ký tự) trên T4 GPU Google Colab:
- ⏱️ Thời gian xử lý: 20 phút
- 🔊 Đầu ra: Audio dài 20 phút
- NGROK API Server: Đang cập nhật...
title: F5 TTS Vietnamese 100h Demo emoji: 💻 colorFrom: yellow colorTo: blue sdk: gradio sdk_version: 5.36.2 app_file: app.py pinned: false
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
source: