-
Notifications
You must be signed in to change notification settings - Fork 978
Translation chapter 7 #938
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Conversation
The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Thanks for the translation, happy to merge once its been reviewed by a Romanian reader :)
…nslation of chapter5
…lation of chapter6
chapters/rum/_toctree.yml
Outdated
- local: chapter7/2 | ||
title: Clasificarea tokenilor | ||
- local: chapter7/3 | ||
title: Fine-tuningul la un model de limbaj mascat |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
title: Fine-tuningul la un model de limbaj mascat | |
title: Fine-tuningul unui model de limbaj mascat |
chapters/rum/chapter7/1.mdx
Outdated
- Masked language modeling (precum BERT) | ||
- Sumarizare | ||
- Traducere | ||
- Preantrenare pentru causal language modeling (precum GPT-2) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
- Preantrenare pentru causal language modeling (precum GPT-2) | |
- Preantrenare pentru `causal language modeling` (precum GPT-2) |
chapters/rum/chapter7/1.mdx
Outdated
- Sumarizare | ||
- Traducere | ||
- Preantrenare pentru causal language modeling (precum GPT-2) | ||
- Răspunderea la întrebări |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
- Răspunderea la întrebări | |
- Răspunsul la întrebări |
chapters/rum/chapter7/2.mdx
Outdated
|
||
### Datasetul CoNLL-2003 [[the-conll-2003-dataset]] | ||
|
||
Pentru a încărca dataetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets: |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Pentru a încărca dataetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets: | |
Pentru a încărca datasetul CoNLL-2003, folosim metoda `load_dataset()` din biblioteca 🤗 Datasets: |
chapters/rum/chapter7/9.mdx
Outdated
<Question | ||
choices={[ | ||
{ | ||
text: "Tokenizatorul adaugă tokeni speciali și nu avem labeluri pentru ele.", |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
text: "Tokenizatorul adaugă tokeni speciali și nu avem labeluri pentru ele.", | |
text: "Tokenizerul adaugă tokeni speciali și nu avem labeluri pentru ele.", |
chapters/rum/chapter7/5.mdx
Outdated
{/if} | ||
|
||
|
||
În această secțiune vom analiza modul în care modelele Transformer pot fi utilizate pentru a condensa documente lungi în rezumate, o sarcină cunoscută sub numele de _text summarization_. Aceasta este una dintre cele mai dificile sarcini NLP, deoarece necesită o gamă largă de abilități, cum ar fi înțelegerea pasajelor lungi și generarea unui text coerent care integrează principalele subiecte dintr-un document. Cu toate acestea, atunci când este bine realizată, rezumarea textului este un instrument puternic care poate accelera diverse procese de business prin scutirea experților într-u anumit domeniu de a citi documente lungi în detaliu. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
În această secțiune vom analiza modul în care modelele Transformer pot fi utilizate pentru a condensa documente lungi în rezumate, o sarcină cunoscută sub numele de _text summarization_. Aceasta este una dintre cele mai dificile sarcini NLP, deoarece necesită o gamă largă de abilități, cum ar fi înțelegerea pasajelor lungi și generarea unui text coerent care integrează principalele subiecte dintr-un document. Cu toate acestea, atunci când este bine realizată, rezumarea textului este un instrument puternic care poate accelera diverse procese de business prin scutirea experților într-u anumit domeniu de a citi documente lungi în detaliu. | |
În această secțiune vom analiza modul în care modelele Transformer pot fi utilizate pentru a condensa documente lungi în rezumate, o sarcină cunoscută sub numele de _text summarization_. Aceasta este una dintre cele mai dificile sarcini NLP, deoarece necesită o gamă largă de abilități, cum ar fi înțelegerea pasajelor lungi și generarea unui text coerent care integrează principalele subiecte dintr-un document. Cu toate acestea, atunci când este bine realizată, rezumarea textului este un instrument puternic care poate accelera diverse procese de business prin scutirea experților într-un anumit domeniu de a citi documente lungi în detaliu. |
chapters/rum/chapter7/5.mdx
Outdated
Name: product_category, dtype: int64 | ||
``` | ||
|
||
Cele mai populare produse din datasetul în limba engleză sunt despre articole de uz casnic, îmbrăcăminte și electronice fără fir. Cu toate acestea, pentru a rămâne la Amazontheme, să ne concentrăm pe rezumatul recenziilor de cărți - la urma urmei, acesta este motivul pentru care compania a fost fondată! Putem vedea două categorii de produse care se potrivesc (`book` și `digital_ebook_purchase`), deci să filtrăm dataseturile în ambele limbi doar pentru aceste produse. După cum am văzut în [Capitolul 5](/course/chapter5), funcția `Dataset.filter()` ne permite să tăiem un datasetfoarte eficient, deci putem defini o funcție simplă pentru a face acest lucru: |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Cele mai populare produse din datasetul în limba engleză sunt despre articole de uz casnic, îmbrăcăminte și electronice fără fir. Cu toate acestea, pentru a rămâne la Amazontheme, să ne concentrăm pe rezumatul recenziilor de cărți - la urma urmei, acesta este motivul pentru care compania a fost fondată! Putem vedea două categorii de produse care se potrivesc (`book` și `digital_ebook_purchase`), deci să filtrăm dataseturile în ambele limbi doar pentru aceste produse. După cum am văzut în [Capitolul 5](/course/chapter5), funcția `Dataset.filter()` ne permite să tăiem un datasetfoarte eficient, deci putem defini o funcție simplă pentru a face acest lucru: | |
Cele mai populare produse din datasetul în limba engleză sunt despre articole de uz casnic, îmbrăcăminte și electronice fără fir. Cu toate acestea, pentru a rămâne la Amazontheme, să ne concentrăm pe rezumatul recenziilor de cărți - la urma urmei, acesta este motivul pentru care compania a fost fondată! Putem vedea două categorii de produse care se potrivesc (`book` și `digital_ebook_purchase`), deci să filtrăm dataseturile în ambele limbi doar pentru aceste produse. După cum am văzut în [Capitolul 5](/course/chapter5), funcția `Dataset.filter()` ne permite să tăiem un dataset foarte eficient, deci putem defini o funcție simplă pentru a face acest lucru: |
chapters/rum/chapter7/7.mdx
Outdated
|
||
<Youtube id="ajPx5LwJD-I"/> | ||
|
||
Vom face fine-tuning unuimodel BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta: |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Vom face fine-tuning unuimodel BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta: | |
Vom face fine-tuning unui-model BERT pe [datasetul SQuAD] (https://rajpurkar.github.io/SQuAD-explorer/), care constă din întrebări adresate de mulțimea de lucrători pe un set de articole Wikipedia. Acest lucru ne va oferi un model capabil să calculeze predicții precum aceasta: |
chapters/rum/chapter7/9.mdx
Outdated
}, | ||
{ | ||
text: "Tokenii adăugați nu au etichete, deci nu există nicio problemă.", | ||
explain: "Incorect; avem nevoie de atâtea etichete câțo tokeni avem, altfel modelele noastre vor da erori." |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
explain: "Incorect; avem nevoie de atâtea etichete câțo tokeni avem, altfel modelele noastre vor da erori." | |
explain: "Incorect; avem nevoie de atâtea etichete câți tokeni avem, altfel modelele noastre vor da erori." |
chapters/rum/chapter7/9.mdx
Outdated
explain: "Acesta ar putea fi un API pe care îl vom adăuga în viitor, dar nu este disponibil acum." | ||
}, | ||
{ | ||
text: "Inputurile și targturile trebuie preprocesate, în două apeluri separate către tokenizer.", |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
text: "Inputurile și targturile trebuie preprocesate, în două apeluri separate către tokenizer.", | |
text: "Inputurile și targeturile trebuie preprocesate, în două apeluri separate către tokenizer.", |
Resolve conflicts here as well! |
…in the romanian translation of chapter7
@stevhliu updated! |
This is the romanian translation of chapter 7.
Ping @lewtun and @stevhliu for a review