Skip to content

Translation chapter 7 #938

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Merged
merged 47 commits into from
Jun 4, 2025
Merged
Show file tree
Hide file tree
Changes from 12 commits
Commits
Show all changes
47 commits
Select commit Hold shift + click to select a range
6b5a6f9
Changed romanian folder name from rum to ro
Angroys Dec 28, 2024
d13ac2d
added chapter 3 first 3 sections
Angroys Jan 1, 2025
ade28a8
Finished translating chapter 3
Angroys Jan 2, 2025
2a10e3b
Finished chapter 4
Angroys Jan 2, 2025
1c9d20a
Finished chapter 5 for the ro language
Angroys Jan 4, 2025
bfe0baf
Done chapter 6
Angroys Jan 8, 2025
abd846c
Add chapter 3
Jan 8, 2025
3b79756
Done the first three sections of the 7th chapter
Angroys Jan 8, 2025
5681ee4
done until section 6
Angroys Jan 16, 2025
a759450
finished chapter 7
Angroys Jan 23, 2025
1bd8547
fix: add toctree content
eduard-balamatiuc May 26, 2025
9026c66
fix: update toctree to only include the current chapter
eduard-balamatiuc May 27, 2025
8d7fd41
Merge branch 'main' into translation-chapter-3
eduard-balamatiuc May 27, 2025
444d4f4
Merge branch 'main' into translation-chapter-4
eduard-balamatiuc May 27, 2025
ea4af07
Merge branch 'main' into translation-chapter-5
eduard-balamatiuc May 27, 2025
9724363
Merge branch 'main' into translation-chapter-6
eduard-balamatiuc May 27, 2025
8d66477
Merge branch 'main' into translation-chapter-7
eduard-balamatiuc May 27, 2025
e61e11e
fix: remove unnecessary files
eduard-balamatiuc May 27, 2025
2550453
fix: remove unecessary files from wrong folder
eduard-balamatiuc May 27, 2025
0904819
feat: add chapter 4 content
eduard-balamatiuc May 27, 2025
6f98827
fix: solve formatting
eduard-balamatiuc May 27, 2025
e5722ca
fix: revert deletion of chapter 0
eduard-balamatiuc May 27, 2025
1b93f33
fix: solve gitignore diff
eduard-balamatiuc May 27, 2025
0cea075
fix: solve bad folder structure
eduard-balamatiuc May 27, 2025
7e95b1f
feat: add content for chapter 5
eduard-balamatiuc May 27, 2025
16a2692
fix: revert missing line
eduard-balamatiuc May 27, 2025
9ebc1a0
fix: add missing link
eduard-balamatiuc May 27, 2025
c312f44
fix: solve typos in files 3 4 6
eduard-balamatiuc May 27, 2025
219c04d
fix: internal server error request to file 3 chapter4
eduard-balamatiuc May 27, 2025
092e1cc
fix: solve make style issue
eduard-balamatiuc May 27, 2025
827ac06
fix: remove unnecessary changes
eduard-balamatiuc May 27, 2025
c117018
feat: add translated content for chapter 6
eduard-balamatiuc May 27, 2025
d483391
fix: remove unnecessary content
eduard-balamatiuc May 27, 2025
c4efd99
feat: add content for chapter7
eduard-balamatiuc May 27, 2025
d44c2fd
fix: solve all PR threads recommendations
eduard-balamatiuc Jun 3, 2025
6da5dde
fix: solve chapter3 romanian translation file 6 formatting issues
eduard-balamatiuc Jun 3, 2025
dc3c3d2
fix: resolve all thread suggestions from chapter 4 romanian translation
eduard-balamatiuc Jun 3, 2025
4be802f
fix: solve typo in romanian spelling chapter 4 file 4
eduard-balamatiuc Jun 3, 2025
6f50a71
feat: add Angroys as one of the contributors to this chapters transla…
eduard-balamatiuc Jun 3, 2025
39e6d0a
fix: resolve all threads and solve all mistakes found in romanian tra…
eduard-balamatiuc Jun 3, 2025
a836cf0
fix: address all threads and grammatical errors in the romanian trans…
eduard-balamatiuc Jun 3, 2025
0829b0d
Merge branch 'main' into translation-chapter-3
eduard-balamatiuc Jun 3, 2025
baa99ea
Merge branch 'translation-chapter-3' into translation-chapter-4
eduard-balamatiuc Jun 3, 2025
e82e833
Merge branch 'translation-chapter-4' into translation-chapter-5
eduard-balamatiuc Jun 3, 2025
bb0aeac
Merge branch 'translation-chapter-5' into translation-chapter-6
eduard-balamatiuc Jun 3, 2025
3f8f37d
fix: resolve all conflicts from threads and solve grammatical issues …
eduard-balamatiuc Jun 3, 2025
3a3bb89
Merge branch 'translation-chapter-6' into translation-chapter-7
eduard-balamatiuc Jun 3, 2025
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
22 changes: 22 additions & 0 deletions chapters/rum/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -26,3 +26,25 @@
- local: chapter1/10
title: Quiz de final de capitol
quiz: 1

- title: 7. Sarcini clasice NLP
sections:
- local: chapter7/1
title: Introducere
- local: chapter7/2
title: Clasificarea tokenilor
- local: chapter7/3
title: Fine-tuningul la un model de limbaj mascat

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
title: Fine-tuningul la un model de limbaj mascat
title: Fine-tuningul unui model de limbaj mascat

- local: chapter7/4
title: Traducere
- local: chapter7/5
title: Sumarizare
- local: chapter7/6
title: Antrenarea de la zero a unui model de limbaj cauzal
- local: chapter7/7
title: Răspuns la întrebări
- local: chapter7/8
title: Înțelegerea LLM-urilor
- local: chapter7/9
title: Quiz de sfârșit de capitol
quiz: 7
38 changes: 38 additions & 0 deletions chapters/rum/chapter7/1.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
<FrameworkSwitchCourse {fw} />

# Introducere[[introduction]]

<CourseFloatingBanner
chapter={7}
classNames="absolute z-10 right-0 top-0"
/>

În [Capitolul 3](/course/chapter3), ați văzut cum să faceți fine-tune unui model pentru clasificarea textului. În acest capitol, vom aborda următoarele sarcini NLP:

- Clasificarea tokenilor
- Masked language modeling (precum BERT)
- Sumarizare
- Traducere
- Preantrenare pentru causal language modeling (precum GPT-2)

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
- Preantrenare pentru causal language modeling (precum GPT-2)
- Preantrenare pentru `causal language modeling` (precum GPT-2)

- Răspunderea la întrebări

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
- Răspunderea la întrebări
- Răspunsul la întrebări


{#if fw === 'pt'}

Pentru a face acest lucru, va trebui să valorificați tot ceea ce ați învățat despre API-ul `Trainer` și biblioteca 🤗 Accelerate în [Capitolul 3](/course/chapter3), biblioteca 🤗 Datasets în [Capitolul 5](/course/chapter5) și biblioteca 🤗 Tokenizers în [Capitolul 6](/course/chapter6). De asemenea, vom încărca rezultatele noastre în Model Hub, așa cum am făcut în [Capitolul 4](/course/chapter4), astfel încât acesta este cu adevărat capitolul în care totul se unește!

Fiecare secțiune poate fi citită independent și vă va arăta cum să antrenați un model cu API-ul `Trainer` sau cu propria buclă de antrenament, utilizând 🤗 Accelerate. Nu ezitați să săriți peste oricare dintre cele două părți și să vă concentrați pe cea care vă interesează cel mai mult: API-ul `Trainer` este excelent pentru fine-tuning sau antrenarea modelului vostru fără a vă face griji cu privire la ceea ce se întâmplă în spatele scenei, în timp ce bucla de antrenament cu `Accelerate` vă va permite să personalizați mai ușor orice parte doriți.

{:else}

Pentru a face acest lucru, va trebui să valorificați tot ceea ce ați învățat despre API-ul `Trainer` și biblioteca 🤗 Accelerate în [Capitolul 3](/course/chapter3), biblioteca 🤗 Datasets în [Capitolul 5](/course/chapter5) și biblioteca 🤗 Tokenizers în [Capitolul 6](/course/chapter6). De asemenea, vom încărca rezultatele noastre în Model Hub, așa cum am făcut în [Capitolul 4](/course/chapter4), astfel încât acesta este cu adevărat capitolul în care totul se unește!

Fiecare secțiune poate fi citită independent.

{/if}


<Tip>

Dacă citiți secțiunile în succesiune, veți observa că acestea au destul de mult cod și proză în comun. Repetarea este intenționată, pentru a vă permite să intrați (sau să reveniți mai târziu) la orice sarcină care vă interesează și să găsiți un exemplu.

</Tip>
983 changes: 983 additions & 0 deletions chapters/rum/chapter7/2.mdx

Large diffs are not rendered by default.

1,043 changes: 1,043 additions & 0 deletions chapters/rum/chapter7/3.mdx

Large diffs are not rendered by default.

1,001 changes: 1,001 additions & 0 deletions chapters/rum/chapter7/4.mdx

Large diffs are not rendered by default.

1,074 changes: 1,074 additions & 0 deletions chapters/rum/chapter7/5.mdx

Large diffs are not rendered by default.

914 changes: 914 additions & 0 deletions chapters/rum/chapter7/6.mdx

Large diffs are not rendered by default.

1,206 changes: 1,206 additions & 0 deletions chapters/rum/chapter7/7.mdx

Large diffs are not rendered by default.

34 changes: 34 additions & 0 deletions chapters/rum/chapter7/8.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,34 @@
# Înțelegerea LLM-urilor[[mastering-llms]]

<CourseFloatingBanner
chapter={7}
classNames="absolute z-10 right-0 top-0"
/>

Dacă ați ajuns până aici în curs, felicitări – acum aveți toate cunoștințele și instrumentele necesare pentru a aborda (aproape) orice sarcină de procesare a limbajului cu 🤗 Transformers și ecosistemul Hugging Face!

## De la NLP la LLM-uri

Deși am acoperit multe sarcini tradiționale de NLP în acest curs, domeniul a fost revoluționat de Modelele Mari de Limbaj (LLM-uri). Aceste modele au extins dramatic ceea ce este posibil în procesarea limbajului:

- Pot gestiona mai multe sarcini fără fine-tuning specific pentru fiecare sarcină
- Excelează la urmarea instrucțiunilor și adaptarea la contexte diferite
- Pot genera text coerent și adecvat contextului pentru diverse aplicații
- Pot realiza raționamente și rezolva probleme complexe prin tehnici precum chain-of-thought prompting

Abilitățile fundamentale de NLP pe care le-ați învățat sunt în continuare esențiale pentru a lucra eficient cu LLM-urile. Înțelegerea tokenizării, a arhitecturilor de modele, a metodelor de fine-tuning și a metricilor de evaluare vă oferă cunoștințele necesare pentru a valorifica la maximum potențialul LLM-urilor.

Am văzut o mulțime de data collators, așa că am făcut acest mic videoclip pentru a vă ajuta să găsiți cel pe care să îl utilizați pentru fiecare sarcină:

<Youtube id="-RPeakdlHYo"/>

După finalizarea acestui tur fulger prin sarcinile de bază ale procesării limbajului, ar trebui să:

* Știți care arhitecturi (encoder, decoder sau encoder-decoder) sunt cele mai potrivite pentru fiecare sarcină
* Înțelegeți diferența dintre preantrenarea și fine-tuning-ul unui model lingvistic
* Știți cum să antrenați modele Transformer folosind fie API-ul `Trainer` și funcționalitățile de antrenare distribuită ale 🤗 Accelerate, fie TensorFlow și Keras, în funcție de traseul pe care l-ați urmat
* Înțelegeți semnificația și limitele metricilor precum ROUGE și BLEU pentru sarcinile de generare de text
* Știți cum să interacționați cu modelele voastre ajustate, atât pe Hub, cât și folosind `pipeline` din 🤗 Transformers
* Să apreciați modul în care LLM-urile se bazează pe și extind tehnicile tradiționale de NLP

În ciuda tuturor acestor cunoștințe, va veni un moment în care fie veți întâlni un bug dificil în codul vostru, fie veți avea o întrebare despre cum să rezolvați o anumită problemă de procesare a limbajului. Din fericire, comunitatea Hugging Face este aici pentru a vă ajuta! În ultimul capitol al acestei părți a cursului, vom explora cum puteți depana modelele Transformer și cum puteți solicita ajutor în mod eficient.
Loading