Translation chapter 6 #937

eduard-balamatiuc · 2025-05-27T08:10:30Z

This is the romanian translation of chapter 6.
Ping @lewtun and @stevhliu for a review

HuggingFaceDocBuilderDev · 2025-05-27T18:10:06Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

stevhliu

Thanks, let me know when it has been reviewed by a Romanian reader!

grumpycatyo-collab

Minor grammar mistakes, but very good overall. Approving!

grumpycatyo-collab · 2025-05-29T16:00:41Z

chapters/rum/chapter6/1.mdx

+
+Subiectele pe care le vom acoperi includ:
+
+* Cum să antrenați un tokenizer nou similar celui utilizat de un anumit checkpoint pe un corpus nou de texte


Suggested change

* Cum să antrenați un tokenizer nou similar celui utilizat de un anumit checkpoint pe un corpus nou de texte

* Cum să antrenați un tokenizer nou, similar celui utilizat de un anumit checkpoint pe un corpus nou de texte

grumpycatyo-collab · 2025-05-29T16:02:46Z

chapters/rum/chapter6/10.mdx

+			correct: true
+		},
+        {
+			text: "Atunci când un token are labelul unei entități date, orice alt token următor cu aceeași label este considerat parte a aceleiași entități, cu excepția cazului în care este labeled ca fiind începutul unei noi entități.",


Suggested change

text: "Atunci când un token are labelul unei entități date, orice alt token următor cu aceeași label este considerat parte a aceleiași entități, cu excepția cazului în care este labeled ca fiind începutul unei noi entități.",

text: "Atunci când un token are labelul unei entități date, orice alt token următor cu aceeași label este considerat parte a aceleiași entități, cu excepția cazului în care este etichetat ca fiind începutul unei noi entități.",

grumpycatyo-collab · 2025-05-29T16:05:02Z

chapters/rum/chapter6/2.mdx

+
+Există o interfață API foarte simplă în 🤗 Transformers pe care o puteți utiliza pentru a antrena un nou tokenizer cu aceleași caracteristici ca unul existent: `AutoTokenizer.train_new_from_iterator()`. Pentru a vedea acest lucru în acțiune, să zicem că vrem să antrenăm GPT-2 de la zero, dar într-o altă limbă decât engleza. Prima noastră sarcină va fi să adunăm multe date în acea limbă într-un corpus de antrenare. Pentru a oferi exemple pe care toată lumea le poate înțelege, nu vom folosi o limbă ca rusă sau chineza aici, ci mai degrabă o limbă engleză specializată: codul Python.
+
+Biblioteca [🤗 Datasets](https://github.com/huggingface/datasets) ne poate ajuta să asamblăm un corpus de cod sursă Python. Vom folosi funcția obișnuită `load_dataset()` pentru a descărca și a păstra în cache dataseul [CodeSearchNet](https://huggingface.co/datasets/code_search_net). Acest dataset a fost creat pentru [Provocarea CodeSearchNet](https://wandb.ai/github/CodeSearchNet/benchmark) și conține milioane de funcții din biblioteci open-source de pe GitHub în mai multe limbaje de programare. Aici, vom încărca partea Python a acestui dataset:


Suggested change

Biblioteca [🤗 Datasets](https://github.com/huggingface/datasets) ne poate ajuta să asamblăm un corpus de cod sursă Python. Vom folosi funcția obișnuită `load_dataset()` pentru a descărca și a păstra în cache dataseul [CodeSearchNet](https://huggingface.co/datasets/code_search_net). Acest dataset a fost creat pentru [Provocarea CodeSearchNet](https://wandb.ai/github/CodeSearchNet/benchmark) și conține milioane de funcții din biblioteci open-source de pe GitHub în mai multe limbaje de programare. Aici, vom încărca partea Python a acestui dataset:

Biblioteca [🤗 Datasets](https://github.com/huggingface/datasets) ne poate ajuta să asamblăm un corpus de cod sursă Python. Vom folosi funcția obișnuită `load_dataset()` pentru a descărca și a păstra în cache datasetul [CodeSearchNet](https://huggingface.co/datasets/code_search_net). Acest dataset a fost creat pentru [Provocarea CodeSearchNet](https://wandb.ai/github/CodeSearchNet/benchmark) și conține milioane de funcții din biblioteci open-source de pe GitHub în mai multe limbaje de programare. Aici, vom încărca partea Python a acestui dataset:

grumpycatyo-collab · 2025-05-29T16:05:33Z

chapters/rum/chapter6/2.mdx

+ 'a', '`', 'Ġand', 'Ġ`', 'b', '`."""', 'ĊĠĠĠ', 'Ġreturn', 'Ġa', 'Ġ+', 'Ġb']
+```
+
+Aici din nou vedem simboluri speciale ca `Ġ` sau `Ċ` care denotă spații sau linii noi, dar în același timp putem vedea că tokenizerul nostru a învățat câțiva tokens care sunt foarte specifici la corpusul de funcții Python: de exemplu, tokenul `ĊĠĠĠ` care reprezintă indentarea, sau tokenul `Ġ"""` care reprezintă cele trei ghilimele cu care se începe un docstring. Tokenizerul, de asemenea face split corect numelui funției pe `_`. Aceasta chiar este o reprezentare compactă: comparativ, utilizând limba tokenizerul Englez pe același exemplu ne va da o propoziție mai lungă:


Suggested change

Aici din nou vedem simboluri speciale ca `Ġ` sau `Ċ` care denotă spații sau linii noi, dar în același timp putem vedea că tokenizerul nostru a învățat câțiva tokens care sunt foarte specifici la corpusul de funcții Python: de exemplu, tokenul `ĊĠĠĠ` care reprezintă indentarea, sau tokenul `Ġ"""` care reprezintă cele trei ghilimele cu care se începe un docstring. Tokenizerul, de asemenea face split corect numelui funției pe `_`. Aceasta chiar este o reprezentare compactă: comparativ, utilizând limba tokenizerul Englez pe același exemplu ne va da o propoziție mai lungă:

Aici din nou vedem simboluri speciale ca `Ġ` sau `Ċ` care denotă spații sau linii noi, dar în același timp putem vedea că tokenizerul nostru a învățat câțiva tokens care sunt foarte specifici la corpusul de funcții Python: de exemplu, tokenul `ĊĠĠĠ` care reprezintă indentarea, sau tokenul `Ġ"""` care reprezintă cele trei ghilimele cu care se începe un docstring. Tokenizerul, de asemenea face split corect numelui funției pe `_`. Aceasta chiar este o reprezentare compactă: comparativ, utilizând limba tokenizerului englez pe același exemplu ne va da o propoziție mai lungă:

grumpycatyo-collab · 2025-05-29T16:06:11Z

chapters/rum/chapter6/2.mdx

+Acest lucru va crea un nou repositoriu în namespacel tău cu numele `code-search-net-tokenizer`, care va conține fișierul tokenizerului. După aceea, puteți încărca tokenizerul de oriunde cu metoda `from_pretrained()`:
+
+```py
+# Înlocuiți "huggingface-course" mai jos cu namespaceul tău pentru a utiliza propriul tokenizer


Suggested change

# Înlocuiți "huggingface-course" mai jos cu namespaceul tău pentru a utiliza propriul tokenizer

# Înlocuiți "huggingface-course" mai jos cu namespace-ul tău pentru a utiliza propriul tokenizer

grumpycatyo-collab · 2025-05-29T16:11:31Z

chapters/rum/chapter6/7.mdx

+model = {token: -log(freq / total_sum) for token, freq in token_freqs.items()}
+```
+
+Acum funcția principală este cea care tokenizează cuvintele folosind algoritmul Viterbi. După cum am văzut mai devreme, acest algoritm calculează cea mai bună segmentare a fiecărui substringur din cuvânt, pe care o vom stoca într-o variabilă numită `best_segmentations`. Vom stoca un dicționar pentru fiecare poziție din cuvânt (de la 0 la lungimea totală a acestuia), cu două chei: indicele de început al ultimului token din cea mai bună segmentare și scorul celei mai bune segmentări. Cu ajutorul indicelui de început al ultimului token, vom putea extrage segmentarea completă odată ce lista este complet populată.


Suggested change

Acum funcția principală este cea care tokenizează cuvintele folosind algoritmul Viterbi. După cum am văzut mai devreme, acest algoritm calculează cea mai bună segmentare a fiecărui substringur din cuvânt, pe care o vom stoca într-o variabilă numită `best_segmentations`. Vom stoca un dicționar pentru fiecare poziție din cuvânt (de la 0 la lungimea totală a acestuia), cu două chei: indicele de început al ultimului token din cea mai bună segmentare și scorul celei mai bune segmentări. Cu ajutorul indicelui de început al ultimului token, vom putea extrage segmentarea completă odată ce lista este complet populată.

Acum funcția principală este cea care tokenizează cuvintele folosind algoritmul Viterbi. După cum am văzut mai devreme, acest algoritm calculează cea mai bună segmentare a fiecărui substring din cuvânt, pe care o vom stoca într-o variabilă numită `best_segmentations`. Vom stoca un dicționar pentru fiecare poziție din cuvânt (de la 0 la lungimea totală a acestuia), cu două chei: indicele de început al ultimului token din cea mai bună segmentare și scorul celei mai bune segmentări. Cu ajutorul indicelui de început al ultimului token, vom putea extrage segmentarea completă odată ce lista este complet populată.

grumpycatyo-collab · 2025-05-29T16:11:52Z

chapters/rum/chapter6/7.mdx

+
+Acum funcția principală este cea care tokenizează cuvintele folosind algoritmul Viterbi. După cum am văzut mai devreme, acest algoritm calculează cea mai bună segmentare a fiecărui substringur din cuvânt, pe care o vom stoca într-o variabilă numită `best_segmentations`. Vom stoca un dicționar pentru fiecare poziție din cuvânt (de la 0 la lungimea totală a acestuia), cu două chei: indicele de început al ultimului token din cea mai bună segmentare și scorul celei mai bune segmentări. Cu ajutorul indicelui de început al ultimului token, vom putea extrage segmentarea completă odată ce lista este complet populată.
+
+Popularea listei se face cu doar două bucle: bucla principală trece peste fiecare poziție de început, iar a doua bucla încearcă toate subcuvintele care încep la acea poziție de început. Dacă substringul se află în vocabular, avem o nouă segmentare a cuvântului până la acea poziție finală, pe care o comparăm cu cea din `best_segmentations`.


Suggested change

Popularea listei se face cu doar două bucle: bucla principală trece peste fiecare poziție de început, iar a doua bucla încearcă toate subcuvintele care încep la acea poziție de început. Dacă substringul se află în vocabular, avem o nouă segmentare a cuvântului până la acea poziție finală, pe care o comparăm cu cea din `best_segmentations`.

Popularea listei se face cu doar două bucle: bucla principală trece peste fiecare poziție de început, iar a doua buclă încearcă toate subcuvintele care încep la acea poziție de început. Dacă substringul se află în vocabular, avem o nouă segmentare a cuvântului până la acea poziție finală, pe care o comparăm cu cea din `best_segmentations`.

grumpycatyo-collab · 2025-05-29T16:13:07Z

chapters/rum/chapter6/8.mdx

+Mai exact, biblioteca este construită în jurul unei clase centrale `Tokenizer` cu building grupate în submodule:
+
+- `normalizers` conține toate tipurile posibile de `Normalizer` pe care le puteți folosi (lista completă [aici](https://huggingface.co/docs/tokenizers/api/normalizers)).
+- `pre_tokenizers` coține toate tipurile de `PreTokenizer` pe care le poți folosi(lista completă [aici](https://huggingface.co/docs/tokenizers/api/pre-tokenizers)).


Suggested change

- `pre_tokenizers` coține toate tipurile de `PreTokenizer` pe care le poți folosi(lista completă [aici](https://huggingface.co/docs/tokenizers/api/pre-tokenizers)).

- `pre_tokenizers` conține toate tipurile de `PreTokenizer` pe care le poți folosi(lista completă [aici](https://huggingface.co/docs/tokenizers/api/pre-tokenizers)).

grumpycatyo-collab · 2025-05-29T16:13:25Z

chapters/rum/chapter6/8.mdx

+- Normalizare (orice curățare a textului care este considerată necesară, cum ar fi eliminarea spațiilor sau a accentelor, normalizarea Unicode etc.)
+- Pre-tokenizarea (împărțirea inputului în cuvinte)
+- Rularea inputului prin model (utilizarea cuvintelor pre-tokenizate pentru a produce o secvență de tokeni)
+- Post-procesare (adăugarea tokenilor speciali ale tokenizerului, generarea attention maskului și a ID-urilor de tip token)


Suggested change

- Post-procesare (adăugarea tokenilor speciali ale tokenizerului, generarea attention maskului și a ID-urilor de tip token)

- Post-procesare (adăugarea tokenilor speciali ai tokenizerului, generarea attention maskului și a ID-urilor de tip token)

grumpycatyo-collab · 2025-05-29T16:14:24Z

chapters/rum/chapter6/8.mdx

+
+Pentru a utiliza acest tokenizer în 🤗 Transformers, trebuie să îl încorporăm în `PreTrainedTokenizerFast`. Putem fie să folosim clasa generică, fie, dacă tokenizerul nostru corespunde unui model existent, să folosim clasa respectivă (aici, `BertTokenizerFast`). Dacă aplicați această lecție pentru a construi un tokenizer nou, va trebui să utilizați prima opțiune.
+
+Pentru a include tokenizatorul într-un `PreTrainedTokenizerFast`, putem fie să transmitem tokenizerul construit ca `tokenizer_object`, fie să transmitem fișierul tokenizerului salvat ca `tokenizer_file`. Cel mai important lucru de reținut este că trebuie să setăm manual toți tokenii speciali, deoarece această clasă nu poate deduce din obiectul `tokenizer` care tokne este tokenul mască, tokenul `[CLS]`, etc.:


Suggested change

Pentru a include tokenizatorul într-un `PreTrainedTokenizerFast`, putem fie să transmitem tokenizerul construit ca `tokenizer_object`, fie să transmitem fișierul tokenizerului salvat ca `tokenizer_file`. Cel mai important lucru de reținut este că trebuie să setăm manual toți tokenii speciali, deoarece această clasă nu poate deduce din obiectul `tokenizer` care tokne este tokenul mască, tokenul `[CLS]`, etc.:

Pentru a include tokenizatorul într-un `PreTrainedTokenizerFast`, putem fie să transmitem tokenizerul construit ca `tokenizer_object`, fie să transmitem fișierul tokenizerului salvat ca `tokenizer_file`. Cel mai important lucru de reținut este că trebuie să setăm manual toți tokenii speciali, deoarece această clasă nu poate deduce din obiectul `tokenizer` care token este tokenul mască, tokenul `[CLS]`, etc.:

…tion

…nslation of chapter5

…lation of chapter6

eduard-balamatiuc · 2025-06-03T10:00:26Z

Hey @stevhliu
I resolved all threads from @grumpycatyo-collab and updated everything under the recent main changes, let me know if there is anything more needed from our side on this PR so that we could merge it!

stevhliu · 2025-06-03T17:02:35Z

Resolve conflicts here as well!

eduard-balamatiuc · 2025-06-03T20:32:31Z

@stevhliu updated!

Angroys and others added 28 commits December 28, 2024 18:56

Changed romanian folder name from rum to ro

6b5a6f9

added chapter 3 first 3 sections

d13ac2d

Finished translating chapter 3

ade28a8

Finished chapter 4

2a10e3b

Finished chapter 5 for the ro language

1c9d20a

Done chapter 6

bfe0baf

Add chapter 3

abd846c

fix: add toctree content

1bd8547

fix: update toctree to only include the current chapter

9026c66

Merge branch 'main' into translation-chapter-3

8d7fd41

Merge branch 'main' into translation-chapter-4

444d4f4

Merge branch 'main' into translation-chapter-5

ea4af07

Merge branch 'main' into translation-chapter-6

9724363

fix: remove unnecessary files

e61e11e

fix: remove unecessary files from wrong folder

2550453

feat: add chapter 4 content

0904819

fix: solve formatting

6f98827

fix: revert deletion of chapter 0

e5722ca

fix: solve gitignore diff

1b93f33

fix: solve bad folder structure

0cea075

feat: add content for chapter 5

7e95b1f

fix: revert missing line

16a2692

fix: add missing link

9ebc1a0

fix: solve typos in files 3 4 6

c312f44

fix: internal server error request to file 3 chapter4

219c04d

fix: solve make style issue

092e1cc

fix: remove unnecessary changes

827ac06

feat: add translated content for chapter 6

c117018

stevhliu approved these changes May 28, 2025

View reviewed changes

grumpycatyo-collab approved these changes May 29, 2025

View reviewed changes

eduard-balamatiuc added 7 commits June 3, 2025 11:36

fix: solve all PR threads recommendations

d44c2fd

fix: solve chapter3 romanian translation file 6 formatting issues

6da5dde

fix: resolve all thread suggestions from chapter 4 romanian translation

dc3c3d2

fix: solve typo in romanian spelling chapter 4 file 4

4be802f

feat: add Angroys as one of the contributors to this chapters transla…

6f50a71

…tion

fix: resolve all threads and solve all mistakes found in romanian tra…

39e6d0a

…nslation of chapter5

fix: address all threads and grammatical errors in the romanian trans…

a836cf0

…lation of chapter6

eduard-balamatiuc added 4 commits June 3, 2025 22:49

Merge branch 'main' into translation-chapter-3

0829b0d

Merge branch 'translation-chapter-3' into translation-chapter-4

baa99ea

Merge branch 'translation-chapter-4' into translation-chapter-5

e82e833

Merge branch 'translation-chapter-5' into translation-chapter-6

bb0aeac

stevhliu merged commit ed315eb into huggingface:main Jun 4, 2025
2 checks passed


		Subiectele pe care le vom acoperi includ:

		* Cum să antrenați un tokenizer nou similar celui utilizat de un anumit checkpoint pe un corpus nou de texte

	* Cum să antrenați un tokenizer nou similar celui utilizat de un anumit checkpoint pe un corpus nou de texte
	* Cum să antrenați un tokenizer nou, similar celui utilizat de un anumit checkpoint pe un corpus nou de texte

	text: "Atunci când un token are labelul unei entități date, orice alt token următor cu aceeași label este considerat parte a aceleiași entități, cu excepția cazului în care este labeled ca fiind începutul unei noi entități.",
	text: "Atunci când un token are labelul unei entități date, orice alt token următor cu aceeași label este considerat parte a aceleiași entități, cu excepția cazului în care este etichetat ca fiind începutul unei noi entități.",


		Există o interfață API foarte simplă în 🤗 Transformers pe care o puteți utiliza pentru a antrena un nou tokenizer cu aceleași caracteristici ca unul existent: `AutoTokenizer.train_new_from_iterator()`. Pentru a vedea acest lucru în acțiune, să zicem că vrem să antrenăm GPT-2 de la zero, dar într-o altă limbă decât engleza. Prima noastră sarcină va fi să adunăm multe date în acea limbă într-un corpus de antrenare. Pentru a oferi exemple pe care toată lumea le poate înțelege, nu vom folosi o limbă ca rusă sau chineza aici, ci mai degrabă o limbă engleză specializată: codul Python.

		Biblioteca [🤗 Datasets](https://github.com/huggingface/datasets) ne poate ajuta să asamblăm un corpus de cod sursă Python. Vom folosi funcția obișnuită `load_dataset()` pentru a descărca și a păstra în cache dataseul [CodeSearchNet](https://huggingface.co/datasets/code_search_net). Acest dataset a fost creat pentru [Provocarea CodeSearchNet](https://wandb.ai/github/CodeSearchNet/benchmark) și conține milioane de funcții din biblioteci open-source de pe GitHub în mai multe limbaje de programare. Aici, vom încărca partea Python a acestui dataset:

	# Înlocuiți "huggingface-course" mai jos cu namespaceul tău pentru a utiliza propriul tokenizer
	# Înlocuiți "huggingface-course" mai jos cu namespace-ul tău pentru a utiliza propriul tokenizer


		Acum funcția principală este cea care tokenizează cuvintele folosind algoritmul Viterbi. După cum am văzut mai devreme, acest algoritm calculează cea mai bună segmentare a fiecărui substringur din cuvânt, pe care o vom stoca într-o variabilă numită `best_segmentations`. Vom stoca un dicționar pentru fiecare poziție din cuvânt (de la 0 la lungimea totală a acestuia), cu două chei: indicele de început al ultimului token din cea mai bună segmentare și scorul celei mai bune segmentări. Cu ajutorul indicelui de început al ultimului token, vom putea extrage segmentarea completă odată ce lista este complet populată.

		Popularea listei se face cu doar două bucle: bucla principală trece peste fiecare poziție de început, iar a doua bucla încearcă toate subcuvintele care încep la acea poziție de început. Dacă substringul se află în vocabular, avem o nouă segmentare a cuvântului până la acea poziție finală, pe care o comparăm cu cea din `best_segmentations`.

	- `pre_tokenizers` coține toate tipurile de `PreTokenizer` pe care le poți folosi(lista completă [aici](https://huggingface.co/docs/tokenizers/api/pre-tokenizers)).
	- `pre_tokenizers` conține toate tipurile de `PreTokenizer` pe care le poți folosi(lista completă [aici](https://huggingface.co/docs/tokenizers/api/pre-tokenizers)).

	- Post-procesare (adăugarea tokenilor speciali ale tokenizerului, generarea attention maskului și a ID-urilor de tip token)
	- Post-procesare (adăugarea tokenilor speciali ai tokenizerului, generarea attention maskului și a ID-urilor de tip token)


		Pentru a utiliza acest tokenizer în 🤗 Transformers, trebuie să îl încorporăm în `PreTrainedTokenizerFast`. Putem fie să folosim clasa generică, fie, dacă tokenizerul nostru corespunde unui model existent, să folosim clasa respectivă (aici, `BertTokenizerFast`). Dacă aplicați această lecție pentru a construi un tokenizer nou, va trebui să utilizați prima opțiune.

		Pentru a include tokenizatorul într-un `PreTrainedTokenizerFast`, putem fie să transmitem tokenizerul construit ca `tokenizer_object`, fie să transmitem fișierul tokenizerului salvat ca `tokenizer_file`. Cel mai important lucru de reținut este că trebuie să setăm manual toți tokenii speciali, deoarece această clasă nu poate deduce din obiectul `tokenizer` care tokne este tokenul mască, tokenul `[CLS]`, etc.:

Translation chapter 6 #937

Translation chapter 6 #937

Uh oh!

Conversation

eduard-balamatiuc commented May 27, 2025

Uh oh!

HuggingFaceDocBuilderDev commented May 27, 2025

Uh oh!

stevhliu left a comment

Choose a reason for hiding this comment

Uh oh!

grumpycatyo-collab left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

eduard-balamatiuc commented Jun 3, 2025

Uh oh!

stevhliu commented Jun 3, 2025

Uh oh!

eduard-balamatiuc commented Jun 3, 2025

Uh oh!

Uh oh!

Uh oh!