Translation chapter 5 #936

eduard-balamatiuc · 2025-05-27T08:10:05Z

This is the romanian translation of chapter 5.
Ping @lewtun and @stevhliu for a review

HuggingFaceDocBuilderDev · 2025-05-27T17:49:03Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

stevhliu

Great job, let me know once a Romanian reader has reviewed and we can merge!

grumpycatyo-collab

Minor typos + suggestions. Approving!

grumpycatyo-collab · 2025-05-29T15:31:24Z

chapters/rum/chapter5/1.mdx

+    classNames="absolute z-10 right-0 top-0"
+/>
+
+În [Capitolul 3](/course/chapter3) ați încercat a biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:


Suggested change

În [Capitolul 3](/course/chapter3) ați încercat a biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:

În [Capitolul 3](/course/chapter3) ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:

grumpycatyo-collab · 2025-05-29T15:31:48Z

chapters/rum/chapter5/1.mdx

+2. Preprocesați datele cu `Dataset.map()`.
+3. Încărcați și calculați metricele.
+
+Dar acesta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, vom trece mai in deep în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:


Suggested change

Dar acesta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, vom trece mai in deep în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:

Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:

grumpycatyo-collab · 2025-05-29T15:33:37Z

chapters/rum/chapter5/2.mdx

+
+Pentru acest exemplu vom folosi [datasetul SQuAD-it](https://github.com/crux82/squad-it/), care este un dataset la scară largă pentru întrebări și răspunsuri în italiană.
+
+Spliturile de antrenare și test sunt găzduite pe GitHub, deci le putem descărca cu o comandă simplă `wget`:


Maybe use seturile de antrenare

grumpycatyo-collab · 2025-05-29T15:34:20Z

chapters/rum/chapter5/2.mdx

+
+</Tip>
+
+Scripturile de încărcare din 🤗 Datasets suportă de fapt decomprimarea automată a fișierelor de intrare, deci am fi putut să sărim peste folosirea `gzip` prin pointarea argumentului `data_files` direct către fișierele comprimate:


pointarea argumentului -> indicarea argumentului

grumpycatyo-collab · 2025-05-29T15:35:38Z

chapters/rum/chapter5/8.mdx

+    choices={[
+        {
+            text: "Încearcă să facă streaming unui dataset prea mare pentru a încăpea în RAM.",
+            explain: "Acest lucru nu este corect -- streaming datasets sunt decompresate pe loc, și puteți prelucra dataseturi de terabytes cu foarte puțin RAM!",


decompresate might have another meaning(from dex: Diminuare a presiunii care se exercita asupra organismului unui subiect dupa ce acesta a fost supus unei presiuni mai mari decat presiunea atmosferica). Try using decomprimare

grumpycatyo-collab · 2025-05-29T15:42:00Z

chapters/rum/chapter5/4.mdx

+```py
+from datasets import load_dataset
+
+# Acest lucru durează câteva minute, așadar poți să te duci să îți iei un ceai sau o cafea între timp :))


grumpycatyo-collab · 2025-05-29T15:42:15Z

chapters/rum/chapter5/4.mdx

+})
+```
+
+Putem observa că există 15.518.009 de linii și două colonne în datasetul nostru – e foarte mult!


Suggested change

Putem observa că există 15.518.009 de linii și două colonne în datasetul nostru – e foarte mult!

Putem observa că există 15.518.009 de linii și două coloane în datasetul nostru – e foarte mult!

grumpycatyo-collab · 2025-05-29T15:42:28Z

chapters/rum/chapter5/4.mdx

+
+<Tip>
+
+✎ De abia acum, 🤗 Datasets va descompresa fișierele necesare pentru încărcarea datasetului. Dacă doriți vreei să salvezi spațiu pe hard driveul tău, puteți transmite `DownloadConfig(delete_extracted=True)` la argumentul `download_config` al `load_dataset()`. Vedeți mai multe detalii în [documentație](https://huggingface.co/docs/datasets/package_reference/builder_classes#datasets.DownloadConfig).


Suggested change

✎ De abia acum, 🤗 Datasets va descompresa fișierele necesare pentru încărcarea datasetului. Dacă doriți vreei să salvezi spațiu pe hard driveul tău, puteți transmite `DownloadConfig(delete_extracted=True)` la argumentul `download_config` al `load_dataset()`. Vedeți mai multe detalii în [documentație](https://huggingface.co/docs/datasets/package_reference/builder_classes#datasets.DownloadConfig).

✎ De abia acum, 🤗 Datasets va descompresa fișierele necesare pentru încărcarea datasetului. Dacă doriți să salvați spațiu pe hard drive-ul dvs. , puteți transmite `DownloadConfig(delete_extracted=True)` la argumentul `download_config` al `load_dataset()`. Vedeți mai multe detalii în [documentație](https://huggingface.co/docs/datasets/package_reference/builder_classes#datasets.DownloadConfig).

I was trying to use the same pronouns across the whole text, that's why I changed tău to dvs.

grumpycatyo-collab · 2025-05-29T15:47:17Z

chapters/rum/chapter5/5.mdx

+    {label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter5/section5.ipynb"},
+]} />
+
+Uneori, datasetul necesar pentru a construi o aplicație NLP nu există, astfel încât veți trebui să-l creați singuri. În această secțiune vom arăta cum să creați un corpus de [GitHub issues](https://github.com/features/issues/), care sunt utilizate în mod obișnuit pentru a urmări erorile sau feature-urile din repositoriurile GitHub. Acest corpus poate fi folosit pentru diverse scopuri, inclusiv:


Suggested change

Uneori, datasetul necesar pentru a construi o aplicație NLP nu există, astfel încât veți trebui să-l creați singuri. În această secțiune vom arăta cum să creați un corpus de [GitHub issues](https://github.com/features/issues/), care sunt utilizate în mod obișnuit pentru a urmări erorile sau feature-urile din repositoriurile GitHub. Acest corpus poate fi folosit pentru diverse scopuri, inclusiv:

Uneori, datasetul necesar pentru a construi o aplicație NLP nu există, astfel încât veți trebui să-l creați singuri. În această secțiune vom arăta cum să creați un corpus de [GitHub issues](https://github.com/features/issues/), care sunt utilizate în mod obișnuit pentru a urmări erorile sau feature-urile din repositoriile GitHub. Acest corpus poate fi folosit pentru diverse scopuri, inclusiv:

grumpycatyo-collab · 2025-05-29T15:49:00Z

chapters/rum/chapter5/6.mdx

+})
+```
+
+Pentru a crea embeddedurile noastre, vom completa fiecare comentariu cu titlul și body-ul problemei, deoarece aceste câmpuri adesea includ informații contextuale utile. Deoarece coloana noastră `comments` este în prezent o listă de comentarii pentru fiecare issue, trebuie să "explodăm" coloana, astfel încât fiecare rând să fie format dintr-un tuple `(html_url, title, body, comment)`. În Pandas, putem face acest lucru cu funcția [`DataFrame.explode()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html), care creează un rând nou pentru fiecare element dintr-o coloană asemănătoare cu o listă, în timp ce copiază toate celelalte valori ale coloanelor. Pentru a vedea acest lucru în acțiune, să trecem la formatul pandas `DataFrame` main întâi:


Suggested change

Pentru a crea embeddedurile noastre, vom completa fiecare comentariu cu titlul și body-ul problemei, deoarece aceste câmpuri adesea includ informații contextuale utile. Deoarece coloana noastră `comments` este în prezent o listă de comentarii pentru fiecare issue, trebuie să "explodăm" coloana, astfel încât fiecare rând să fie format dintr-un tuple `(html_url, title, body, comment)`. În Pandas, putem face acest lucru cu funcția [`DataFrame.explode()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html), care creează un rând nou pentru fiecare element dintr-o coloană asemănătoare cu o listă, în timp ce copiază toate celelalte valori ale coloanelor. Pentru a vedea acest lucru în acțiune, să trecem la formatul pandas `DataFrame` main întâi:

Pentru a crea embeddedurile noastre, vom completa fiecare comentariu cu titlul și body-ul problemei, deoarece aceste câmpuri adesea includ informații contextuale utile. Deoarece coloana noastră `comments` este în prezent o listă de comentarii pentru fiecare issue, trebuie să "explodăm" coloana, astfel încât fiecare rând să fie format dintr-un tuple `(html_url, title, body, comment)`. În Pandas, putem face acest lucru cu funcția [`DataFrame.explode()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html), care creează un rând nou pentru fiecare element dintr-o coloană asemănătoare cu o listă, în timp ce copiază toate celelalte valori ale coloanelor. Pentru a vedea acest lucru în acțiune, să trecem la formatul pandas `DataFrame` mai întâi:

…tion

…nslation of chapter5

eduard-balamatiuc · 2025-06-03T09:41:51Z

Hey @stevhliu
I resolved all threads from @grumpycatyo-collab and updated everything under the recent main changes, let me know if there is anything more needed from our side on this PR so that we could merge it!

stevhliu · 2025-06-03T17:02:03Z

Also need to resolve conflicts here!

eduard-balamatiuc · 2025-06-03T20:32:21Z

@stevhliu updated!

Angroys and others added 24 commits December 28, 2024 18:56

Changed romanian folder name from rum to ro

6b5a6f9

added chapter 3 first 3 sections

d13ac2d

Finished translating chapter 3

ade28a8

Finished chapter 4

2a10e3b

Finished chapter 5 for the ro language

1c9d20a

Add chapter 3

abd846c

fix: add toctree content

1bd8547

fix: update toctree to only include the current chapter

9026c66

Merge branch 'main' into translation-chapter-3

8d7fd41

Merge branch 'main' into translation-chapter-4

444d4f4

Merge branch 'main' into translation-chapter-5

ea4af07

fix: remove unnecessary files

e61e11e

fix: remove unecessary files from wrong folder

2550453

feat: add chapter 4 content

0904819

fix: solve formatting

6f98827

fix: revert deletion of chapter 0

e5722ca

fix: solve gitignore diff

1b93f33

fix: solve bad folder structure

0cea075

feat: add content for chapter 5

7e95b1f

fix: revert missing line

16a2692

fix: add missing link

9ebc1a0

fix: solve typos in files 3 4 6

c312f44

fix: internal server error request to file 3 chapter4

219c04d

fix: solve make style issue

092e1cc

stevhliu approved these changes May 28, 2025

View reviewed changes

grumpycatyo-collab approved these changes May 29, 2025

View reviewed changes

eduard-balamatiuc added 3 commits June 3, 2025 11:36

fix: solve all PR threads recommendations

d44c2fd

fix: solve chapter3 romanian translation file 6 formatting issues

6da5dde

fix: resolve all thread suggestions from chapter 4 romanian translation

dc3c3d2

eduard-balamatiuc added 3 commits June 3, 2025 12:24

fix: solve typo in romanian spelling chapter 4 file 4

4be802f

feat: add Angroys as one of the contributors to this chapters transla…

6f50a71

…tion

fix: resolve all threads and solve all mistakes found in romanian tra…

39e6d0a

…nslation of chapter5

eduard-balamatiuc added 3 commits June 3, 2025 22:49

Merge branch 'main' into translation-chapter-3

0829b0d

Merge branch 'translation-chapter-3' into translation-chapter-4

baa99ea

Merge branch 'translation-chapter-4' into translation-chapter-5

e82e833

stevhliu merged commit ab2b3e9 into huggingface:main Jun 4, 2025
2 checks passed

	În [Capitolul 3](/course/chapter3) ați încercat a biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:
	În [Capitolul 3](/course/chapter3) ați încercat biblioteca 🤗Datasets și ați văzut că existau trei pași principali atunci când vine vorba de fine-tuningul unui model:

	Dar acesta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, vom trece mai in deep în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:
	Dar aceasta este doar o mică parte a ceea ce poate face 🤗 Datasets! În acest capitol, ne vom aprofunda în această bibliotecă. Pe parcurs, vom găsi răspunsuri la următoarele întrebări:


		Pentru acest exemplu vom folosi [datasetul SQuAD-it](https://github.com/crux82/squad-it/), care este un dataset la scară largă pentru întrebări și răspunsuri în italiană.

		Spliturile de antrenare și test sunt găzduite pe GitHub, deci le putem descărca cu o comandă simplă `wget`:


		</Tip>

		Scripturile de încărcare din 🤗 Datasets suportă de fapt decomprimarea automată a fișierelor de intrare, deci am fi putut să sărim peste folosirea `gzip` prin pointarea argumentului `data_files` direct către fișierele comprimate:

	Putem observa că există 15.518.009 de linii și două colonne în datasetul nostru – e foarte mult!
	Putem observa că există 15.518.009 de linii și două coloane în datasetul nostru – e foarte mult!


		<Tip>

		✎ De abia acum, 🤗 Datasets va descompresa fișierele necesare pentru încărcarea datasetului. Dacă doriți vreei să salvezi spațiu pe hard driveul tău, puteți transmite `DownloadConfig(delete_extracted=True)` la argumentul `download_config` al `load_dataset()`. Vedeți mai multe detalii în [documentație](https://huggingface.co/docs/datasets/package_reference/builder_classes#datasets.DownloadConfig).

Translation chapter 5 #936

Translation chapter 5 #936

Uh oh!

Conversation

eduard-balamatiuc commented May 27, 2025

Uh oh!

HuggingFaceDocBuilderDev commented May 27, 2025

Uh oh!

stevhliu left a comment

Choose a reason for hiding this comment

Uh oh!

grumpycatyo-collab left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

eduard-balamatiuc commented Jun 3, 2025

Uh oh!

stevhliu commented Jun 3, 2025

Uh oh!

eduard-balamatiuc commented Jun 3, 2025

Uh oh!

Uh oh!

Uh oh!