Translation chapter 7 #938

eduard-balamatiuc · 2025-05-27T08:10:54Z

This is the romanian translation of chapter 7.
Ping @lewtun and @stevhliu for a review

HuggingFaceDocBuilderDev · 2025-05-27T19:25:37Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

stevhliu

Thanks for the translation, happy to merge once its been reviewed by a Romanian reader :)

…tion

…nslation of chapter5

…lation of chapter6

grumpycatyo-collab · 2025-06-03T12:37:57Z

chapters/rum/_toctree.yml

+  - local: chapter7/2
+    title: Clasificarea tokenilor
+  - local: chapter7/3
+    title: Fine-tuningul la un model de limbaj mascat


Suggested change

title: Fine-tuningul la un model de limbaj mascat

title: Fine-tuningul unui model de limbaj mascat

grumpycatyo-collab · 2025-06-03T12:38:48Z

chapters/rum/chapter7/1.mdx

+- Masked language modeling (precum BERT)
+- Sumarizare
+- Traducere
+- Preantrenare pentru causal language modeling (precum GPT-2)


Suggested change

- Preantrenare pentru causal language modeling (precum GPT-2)

- Preantrenare pentru `causal language modeling` (precum GPT-2)

grumpycatyo-collab · 2025-06-03T12:39:16Z

chapters/rum/chapter7/1.mdx

+- Sumarizare
+- Traducere
+- Preantrenare pentru causal language modeling (precum GPT-2)
+- Răspunderea la întrebări


Suggested change

- Răspunderea la întrebări

- Răspunsul la întrebări

grumpycatyo-collab · 2025-06-03T12:41:30Z

chapters/rum/chapter7/2.mdx

+
+### Datasetul CoNLL-2003 [[the-conll-2003-dataset]]
+
+Pentru a încărca dataetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets:


Suggested change

Pentru a încărca dataetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets:

Pentru a încărca datasetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets:

grumpycatyo-collab · 2025-06-03T12:48:59Z

chapters/rum/chapter7/9.mdx

+<Question
+	choices={[
+		{
+			text: "Tokenizatorul adaugă tokeni speciali și nu avem labeluri pentru ele.",


Suggested change

text: "Tokenizatorul adaugă tokeni speciali și nu avem labeluri pentru ele.",

text: "Tokenizerul adaugă tokeni speciali și nu avem labeluri pentru ele.",

grumpycatyo-collab · 2025-06-03T13:12:27Z

chapters/rum/chapter7/5.mdx

+{/if}
+
+
+În această secțiune vom analiza modul în care modelele Transformer pot fi utilizate pentru a condensa documente lungi în rezumate, o sarcină cunoscută sub numele de _text summarization_. Aceasta este una dintre cele mai dificile sarcini NLP, deoarece necesită o gamă largă de abilități, cum ar fi înțelegerea pasajelor lungi și generarea unui text coerent care integrează principalele subiecte dintr-un document. Cu toate acestea, atunci când este bine realizată, rezumarea textului este un instrument puternic care poate accelera diverse procese de business prin scutirea experților într-u anumit domeniu de a citi documente lungi în detaliu.


Suggested change

În această secțiune vom analiza modul în care modelele Transformer pot fi utilizate pentru a condensa documente lungi în rezumate, o sarcină cunoscută sub numele de _text summarization_. Aceasta este una dintre cele mai dificile sarcini NLP, deoarece necesită o gamă largă de abilități, cum ar fi înțelegerea pasajelor lungi și generarea unui text coerent care integrează principalele subiecte dintr-un document. Cu toate acestea, atunci când este bine realizată, rezumarea textului este un instrument puternic care poate accelera diverse procese de business prin scutirea experților într-u anumit domeniu de a citi documente lungi în detaliu.

În această secțiune vom analiza modul în care modelele Transformer pot fi utilizate pentru a condensa documente lungi în rezumate, o sarcină cunoscută sub numele de _text summarization_. Aceasta este una dintre cele mai dificile sarcini NLP, deoarece necesită o gamă largă de abilități, cum ar fi înțelegerea pasajelor lungi și generarea unui text coerent care integrează principalele subiecte dintr-un document. Cu toate acestea, atunci când este bine realizată, rezumarea textului este un instrument puternic care poate accelera diverse procese de business prin scutirea experților într-un anumit domeniu de a citi documente lungi în detaliu.

grumpycatyo-collab · 2025-06-03T13:13:01Z

chapters/rum/chapter7/5.mdx

+Name: product_category, dtype: int64
+```
+
+Cele mai populare produse din datasetul în limba engleză sunt despre articole de uz casnic, îmbrăcăminte și electronice fără fir. Cu toate acestea, pentru a rămâne la Amazontheme, să ne concentrăm pe rezumatul recenziilor de cărți - la urma urmei, acesta este motivul pentru care compania a fost fondată! Putem vedea două categorii de produse care se potrivesc (`book` și `digital_ebook_purchase`), deci să filtrăm dataseturile în ambele limbi doar pentru aceste produse. După cum am văzut în [Capitolul 5](/course/chapter5), funcția `Dataset.filter()` ne permite să tăiem un datasetfoarte eficient, deci putem defini o funcție simplă pentru a face acest lucru:


Suggested change

Cele mai populare produse din datasetul în limba engleză sunt despre articole de uz casnic, îmbrăcăminte și electronice fără fir. Cu toate acestea, pentru a rămâne la Amazontheme, să ne concentrăm pe rezumatul recenziilor de cărți - la urma urmei, acesta este motivul pentru care compania a fost fondată! Putem vedea două categorii de produse care se potrivesc (`book` și `digital_ebook_purchase`), deci să filtrăm dataseturile în ambele limbi doar pentru aceste produse. După cum am văzut în [Capitolul 5](/course/chapter5), funcția `Dataset.filter()` ne permite să tăiem un datasetfoarte eficient, deci putem defini o funcție simplă pentru a face acest lucru:

Cele mai populare produse din datasetul în limba engleză sunt despre articole de uz casnic, îmbrăcăminte și electronice fără fir. Cu toate acestea, pentru a rămâne la Amazontheme, să ne concentrăm pe rezumatul recenziilor de cărți - la urma urmei, acesta este motivul pentru care compania a fost fondată! Putem vedea două categorii de produse care se potrivesc (`book` și `digital_ebook_purchase`), deci să filtrăm dataseturile în ambele limbi doar pentru aceste produse. După cum am văzut în [Capitolul 5](/course/chapter5), funcția `Dataset.filter()` ne permite să tăiem un dataset foarte eficient, deci putem defini o funcție simplă pentru a face acest lucru:

grumpycatyo-collab · 2025-06-03T13:18:20Z

chapters/rum/chapter7/7.mdx

+
+<Youtube id="ajPx5LwJD-I"/>
+
+Vom face fine-tuning unuimodel BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta:


Suggested change

Vom face fine-tuning unuimodel BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta:

Vom face fine-tuning unui-model BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta:

grumpycatyo-collab · 2025-06-03T13:20:56Z

chapters/rum/chapter7/9.mdx

+		},
+		{
+			text: "Tokenii adăugați nu au etichete, deci nu există nicio problemă.",
+			explain: "Incorect; avem nevoie de atâtea etichete câțo tokeni avem, altfel modelele noastre vor da erori."


Suggested change

explain: "Incorect; avem nevoie de atâtea etichete câțo tokeni avem, altfel modelele noastre vor da erori."

explain: "Incorect; avem nevoie de atâtea etichete câți tokeni avem, altfel modelele noastre vor da erori."

grumpycatyo-collab · 2025-06-03T13:21:12Z

chapters/rum/chapter7/9.mdx

+			explain: "Acesta ar putea fi un API pe care îl vom adăuga în viitor, dar nu este disponibil acum."
+		},
+		{
+			text: "Inputurile și targturile trebuie preprocesate, în două apeluri separate către tokenizer.",


Suggested change

text: "Inputurile și targturile trebuie preprocesate, în două apeluri separate către tokenizer.",

text: "Inputurile și targeturile trebuie preprocesate, în două apeluri separate către tokenizer.",

stevhliu · 2025-06-03T17:03:19Z

Resolve conflicts here as well!

…in the romanian translation of chapter7

eduard-balamatiuc · 2025-06-03T20:32:46Z

@stevhliu updated!

Angroys and others added 30 commits December 28, 2024 18:56

Changed romanian folder name from rum to ro

6b5a6f9

added chapter 3 first 3 sections

d13ac2d

Finished translating chapter 3

ade28a8

Finished chapter 4

2a10e3b

Finished chapter 5 for the ro language

1c9d20a

Done chapter 6

bfe0baf

Add chapter 3

abd846c

Done the first three sections of the 7th chapter

3b79756

done until section 6

5681ee4

finished chapter 7

a759450

fix: add toctree content

1bd8547

fix: update toctree to only include the current chapter

9026c66

Merge branch 'main' into translation-chapter-3

8d7fd41

Merge branch 'main' into translation-chapter-4

444d4f4

Merge branch 'main' into translation-chapter-5

ea4af07

Merge branch 'main' into translation-chapter-6

9724363

Merge branch 'main' into translation-chapter-7

8d66477

fix: remove unnecessary files

e61e11e

fix: remove unecessary files from wrong folder

2550453

feat: add chapter 4 content

0904819

fix: solve formatting

6f98827

fix: revert deletion of chapter 0

e5722ca

fix: solve gitignore diff

1b93f33

fix: solve bad folder structure

0cea075

feat: add content for chapter 5

7e95b1f

fix: revert missing line

16a2692

fix: add missing link

9ebc1a0

fix: solve typos in files 3 4 6

c312f44

fix: internal server error request to file 3 chapter4

219c04d

fix: solve make style issue

092e1cc

eduard-balamatiuc added 4 commits May 27, 2025 20:51

fix: remove unnecessary changes

827ac06

feat: add translated content for chapter 6

c117018

fix: remove unnecessary content

d483391

feat: add content for chapter7

c4efd99

stevhliu approved these changes May 28, 2025

View reviewed changes

eduard-balamatiuc added 7 commits June 3, 2025 11:36

fix: solve all PR threads recommendations

d44c2fd

fix: solve chapter3 romanian translation file 6 formatting issues

6da5dde

fix: resolve all thread suggestions from chapter 4 romanian translation

dc3c3d2

fix: solve typo in romanian spelling chapter 4 file 4

4be802f

feat: add Angroys as one of the contributors to this chapters transla…

6f50a71

…tion

fix: resolve all threads and solve all mistakes found in romanian tra…

39e6d0a

…nslation of chapter5

fix: address all threads and grammatical errors in the romanian trans…

a836cf0

…lation of chapter6

grumpycatyo-collab approved these changes Jun 3, 2025

View reviewed changes

eduard-balamatiuc added 6 commits June 3, 2025 22:49

Merge branch 'main' into translation-chapter-3

0829b0d

Merge branch 'translation-chapter-3' into translation-chapter-4

baa99ea

Merge branch 'translation-chapter-4' into translation-chapter-5

e82e833

Merge branch 'translation-chapter-5' into translation-chapter-6

bb0aeac

fix: resolve all conflicts from threads and solve grammatical issues …

3f8f37d

…in the romanian translation of chapter7

Merge branch 'translation-chapter-6' into translation-chapter-7

3a3bb89

stevhliu merged commit 49c57b0 into huggingface:main Jun 4, 2025
2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Translation chapter 7 #938

Translation chapter 7 #938

Uh oh!

eduard-balamatiuc commented May 27, 2025

Uh oh!

HuggingFaceDocBuilderDev commented May 27, 2025

Uh oh!

stevhliu left a comment

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

grumpycatyo-collab Jun 3, 2025

Uh oh!

stevhliu commented Jun 3, 2025

Uh oh!

eduard-balamatiuc commented Jun 3, 2025

Uh oh!

Uh oh!

Uh oh!

	title: Fine-tuningul la un model de limbaj mascat
	title: Fine-tuningul unui model de limbaj mascat

	- Preantrenare pentru causal language modeling (precum GPT-2)
	- Preantrenare pentru `causal language modeling` (precum GPT-2)


		### Datasetul CoNLL-2003 [[the-conll-2003-dataset]]

		Pentru a încărca dataetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets:

	Pentru a încărca dataetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets:
	Pentru a încărca datasetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets:

	text: "Tokenizatorul adaugă tokeni speciali și nu avem labeluri pentru ele.",
	text: "Tokenizerul adaugă tokeni speciali și nu avem labeluri pentru ele.",

		{/if}


		În această secțiune vom analiza modul în care modelele Transformer pot fi utilizate pentru a condensa documente lungi în rezumate, o sarcină cunoscută sub numele de _text summarization_. Aceasta este una dintre cele mai dificile sarcini NLP, deoarece necesită o gamă largă de abilități, cum ar fi înțelegerea pasajelor lungi și generarea unui text coerent care integrează principalele subiecte dintr-un document. Cu toate acestea, atunci când este bine realizată, rezumarea textului este un instrument puternic care poate accelera diverse procese de business prin scutirea experților într-u anumit domeniu de a citi documente lungi în detaliu.


		<Youtube id="ajPx5LwJD-I"/>

		Vom face fine-tuning unuimodel BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta:

	Vom face fine-tuning unuimodel BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta:
	Vom face fine-tuning unui-model BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta:

	explain: "Incorect; avem nevoie de atâtea etichete câțo tokeni avem, altfel modelele noastre vor da erori."
	explain: "Incorect; avem nevoie de atâtea etichete câți tokeni avem, altfel modelele noastre vor da erori."

	text: "Inputurile și targturile trebuie preprocesate, în două apeluri separate către tokenizer.",
	text: "Inputurile și targeturile trebuie preprocesate, în două apeluri separate către tokenizer.",

Translation chapter 7 #938

Translation chapter 7 #938

Uh oh!

Conversation

eduard-balamatiuc commented May 27, 2025

Uh oh!

HuggingFaceDocBuilderDev commented May 27, 2025

Uh oh!

stevhliu left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

stevhliu commented Jun 3, 2025

Uh oh!

eduard-balamatiuc commented Jun 3, 2025

Uh oh!

Uh oh!

Uh oh!