ΠΠΈΠ½ΠΈ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅-ΠΎΡΡΠ΅Ρ ΠΏΠΎ ΡΡΠ°ΡΡΠ΅ - https://arxiv.org/abs/2311.12424
- ΠΠ²Π΅Π΄Π΅Π½ΠΈΠ΅
- Π‘ΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΠΈ Looped TFs Ρ ΠΎΠ±ΡΡΠ½ΡΠΌΠΈ TFs
- N ΡΠΎΠΊΠ΅Π½ΠΎΠ²
- Looped n-layers
- ΠΠ°ΠΌΠ΅Π½ΠΈΠΌ Attention Π½Π° SSM
- ΠΠ΅ΠΌΠ½ΠΎΠ³ΠΎ ΠΈΠ·ΠΌΠ΅Π½ΠΈΠΌ ΠΌΠΎΠ΄Π΅Π»Ρ (Bonus)
- ΠΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΠ΅ Π½Π°Π±Π»ΡΠ΄Π΅Π½ΠΈΡ
- ΠΠΈΡΠΊΡΡΡΠΈΡ ΠΈ Π·Π°ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅
ΠΡΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π½ΡΠ΅ Π²Π΅ΡΡΠΈΠΈ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡΡ Π² environment.yml
. ΠΠ»Ρ ΡΡΡΠ°Π½ΠΎΠ²ΠΊΠΈ ΡΡΠ΅Π΄Ρ ΠΌΠΎΠΆΠ½ΠΎ Π²ΠΎΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡΡΡ ΡΠ»Π΅Π΄ΡΡΡΠΈΠΌΠΈ ΠΊΠΎΠΌΠ°Π½Π΄Π°ΠΌΠΈ:
conda env create -f environment.yml
conda activate looped_tf
Π ΡΠ»ΡΡΠ°Π΅ ΡΡΡΠ΄Π½ΠΎΡΡΠ΅ΠΉ Ρ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²ΡΠ΅ Π²Π΅ΡΠ° Π½Π°Ρ
ΠΎΠ΄ΡΡΡΡ ΠΏΠΎ ΠΏΡΡΠΈ /scripts/scripts/models
.
ΠΠ° ΠΎΡΠ½ΠΎΠ²Ρ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΡ Π²Π·ΡΡΠ° ΡΡΠ°ΡΡΡ Looped Transformers are Better at Learning Learning Algorithms. Π Π΄Π°Π½Π½ΠΎΠΉ ΡΠ°Π±ΠΎΡΠ΅ ΠΌΡ ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ Π½Π° Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ ΠΏΠΎ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΡΠΊΠΎΡΠΎΡΡΠΈ Π΅Π΅ ΡΡ
ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ, ΠΏΡΠΎΠ²Π΅ΡΠΈΠΌ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Π³ΠΈΠΏΠΎΡΠ΅Π· ΠΈ ΠΏΠΎΠΏΡΠΎΠ±ΡΠ΅ΠΌ ΠΎΠ±ΠΎΡΠ½ΠΎΠ²Π°ΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ. ΠΡΠ²Π΅Π΄Π΅ΠΌ ΠΌΠ΅ΡΡΠΈΠΊΠΈ Π΄Π»Ρ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡ ΠΏΡΠΈ ΡΠ°Π·Π»ΠΈΡΠ½ΡΡ
ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°Ρ
ΠΈ ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ, ΡΡΠΎ Π²Π»ΠΈΡΠ΅Ρ Π½Π° ΡΠΎΡ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ. ΠΠΎΠ»ΡΡΠ°Ρ ΡΠ°ΡΡΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»Π°ΡΡ Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ
ΠΠ΄Π½Π° ΡΠ°ΡΡΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»Π°ΡΡ Π² Π½ΠΎΡΡΠ±ΡΠΊΠ°Ρ
ΡΠΎΡΠΌΠ°ΡΠ° experiment_*.ipynb
. ΠΡΡΠ³Π°Ρ ΡΠ°ΡΡΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»Π°ΡΡ Π² ΡΠ΄Π°Π»Π΅Π½Π½ΠΎΠΉ ΡΡΠ΅Π΄Π΅ (kaggle), ΠΈΡ
ΠΊΠΎΠ½ΡΠΈΠ³ΡΡΠ°ΡΠΈΠΈ Π½Π°Ρ
ΠΎΠ΄ΡΡΡΡ Π² ΠΏΠ°ΠΏΠΊΠ΅ configs
.
ΠΠ°Π΄Π°ΡΠ° ΡΠ°Π±ΠΎΡΡ: ΡΡΠ°Π²Π½ΠΈΡΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½ΡΡ ΠΈ ΠΎΠ±ΡΡΠ½ΡΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π΄Π»Ρ In-Context Learning Π² ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΈ (Ρ ΡΡΠΌΠΎΠΌ ΠΈ Π±Π΅Π·).
ΠΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½ΡΡ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡ Ρ Π²ΡΠΊΠ»ΡΡΠ΅Π½Π½ΡΠΌ Mixed Precision, ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΠΎΠ½ Π½Π΅ Π²Π»ΠΈΡΠ» Π½Π° ΡΠΊΠΎΡΠΎΡΡΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ - ΠΈΠ·-Π·Π° ΡΠΎΠ³ΠΎ, ΡΡΠΎ gpt2_nano Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ GPU ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎ, ΠΈ ΠΏΠΎ ΡΡΠΎΠΉ ΠΆΠ΅ ΠΏΡΠΈΡΠΈΠ½Π΅, ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠ° ΠΎΡΡΠ°Π²Π°Π»Π°ΡΡ ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠΉ. ΠΠ΄Π½Π° ΡΠ°ΡΡΡ ΡΠΊΡΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½ΡΠΎΠ² ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»Π°ΡΡ Π½Π° Π»ΠΎΠΊΠ°Π»ΡΠ½ΠΎΠΉ ΠΌΠ°ΡΠΈΠ½Π΅ Ρ Nvidia 3060ti mobile, Π° Π²ΡΠΎΡΠ°Ρ Π½Π° ΡΠ΄Π°Π»Π΅Π½Π½ΠΎΠΉ ΠΌΠ°ΡΠΈΠ½Π΅.
ΠΠ»Ρ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Π΄Π²ΡΡ
ΡΠΈΠΏΠΎΠ² ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ Π½Π° ΡΠΊΠΎΡΠΎΡΡΡ ΡΡ
ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠ° (TF) Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠΌ Heads=4, dims=10, points=31
. ΠΠ° Π³ΡΠ°ΡΠΈΠΊΠ΅ ΠΊΠ²Π°Π΄ΡΠ°ΡΠΈΡΠ½Π°Ρ ΠΎΡΠΈΠ±ΠΊΠ° ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π½Π° Π½Π° ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΡ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΈ
![]() |
![]() |
ΠΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ Π²ΠΈΠ΄Π΅ΡΡ ΠΈΠ· Π³ΡΠ°ΡΠΈΠΊΠΎΠ², Looped TFs ΠΏΡΠΈ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠΈ $ b $ Π΄Π°Π΅Ρ ΡΠ»ΡΡΡΠ΅Π½ΠΈΠ΅ ΠΌΠ΅ΡΡΠΈΠΊ. ΠΡΠΈ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² Π² 12 ΡΠ°Π· ΠΌΠ΅Π½ΡΡΠΈΠΌ, ΡΠ΅ΠΌ Ρ ΠΎΠ±ΡΡΠ½ΠΎΠ³ΠΎ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠ°, ΠΎΠ½ ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π΅Ρ ΡΠΎΠΏΠΎΡΡΠ°Π²ΠΈΠΌΡΠ΅ Ρ ΠΎΠ±ΡΡΠ½ΡΠΌ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠΌ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»ΠΈ.
Π‘ΡΠ°Π²Π½ΠΈΠΌ ΡΠΎΡΠ½ΠΎΡΡΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ Π½Π° ΠΈΡ
ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ Π½Π° ΡΠ°Π·Π½ΡΡ
ΠΈΡΠ΅ΡΠ°ΡΠΈΡΡ
(Π² Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅ΠΌ Π΄Π°Π½Π½ΡΠΉ ΠΌΠ΅ΡΠΎΠ΄ Π±ΡΠ΄Π΅Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ Π½ΠΈ ΠΎΠ΄ΠΈΠ½ ΡΠ°Π·). ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ ΠΎΠ±ΡΡΠΈΠΌ Looped TFs ΡΠΎ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ
![]() |
![]() |
ΠΠ· Π³ΡΠ°ΡΠΈΠΊΠ° ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅ΡΡ, ΡΡΠΎ ΠΏΡΠΈ Π±ΠΎΠ»ΡΡΠ΅ΠΌ
ΠΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡ Π² Π±Π»ΠΎΠΊΠ½ΠΎΡΠ΅ experiment_schedule.ipynb
.
ΠΠΎΡΠ²ΠΈΠ»Π°ΡΡ ΡΠ»Π΅Π΄ΡΡΡΠ°Ρ Π³ΠΈΠΏΠΎΡΠ΅Π·Π°:
ΠΠΈΠΏΠΎΡΠ΅Π·Π°
Π’ΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠ° Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΡΠ΅Π΄ΡΠ»ΠΈΠ½Π³Π° (ΠΏΠΎ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ
$b$ ) ΠΌΠΎΠΆΠ΅Ρ Π΄Π°ΡΡ Π»ΡΡΡΡΡ ΡΡ ΠΎΠ΄ΠΈΠΌΠΎΡΡΡ ΠΏΡΠΈ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠΈ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡa$b$ Π½Π° ΡΡΠ°ΠΏΠ΅ Π²Π°Π»ΠΈΠ΄Π°ΡΠΈΠΈ.
ΠΠ΄Π½Π°ΠΊΠΎ Π² ΠΏΡΠΎΡΠ΅ΡΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ° ΡΠΎ ΡΠ»Π°Π±ΡΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΡΠΌΠΈ (n_embs=128
), ΡΡΠΎ ΠΏΠΎΠ΄ΡΠ²Π΅ΡΠ΄ΠΈΠ»ΠΎΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ°ΡΡΠΈΡΠ½ΠΎ.
ΠΡΠΈ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠ΅ Ρ ΡΠ°Π·Π½ΡΠΌ
ΠΠΏΡΡΡ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡ Π² Π±Π»ΠΎΠΊΠ½ΠΎΡΠ΅ experiment_shedule.ipynb
ΠΈ Π² Π±Π»ΠΎΠΊΠ½ΠΎΡΠ΅ experiment_shedule_2.ipynb
.
![]() |
![]() |
![]() |
ΠΠ· Π³ΡΠ°ΡΠΈΠΊΠΎΠ² Π²ΡΡΠ΅ ΠΌΠΎΠΆΠ½ΠΎ Π²ΠΈΠ΄Π΅ΡΡ, ΡΡΠΎ, Π² ΠΎΡΠ»ΠΈΡΠΈΠΈ ΠΎΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ n_embs=256
- ΠΌΡ ΡΠ²Π΅Π»ΠΈΡΠΈΠ»ΠΈ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² Π΄Π²Π° ΡΠ°Π·Π° ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠΈΡ
, ΠΎΠ΄Π½Π°ΠΊΠΎ ΡΡΠΎ Π½Π΅ ΠΈΠ·ΠΌΠ΅Π½ΠΈΠ½ΠΈΠ»ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΡ. ΠΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, Π΄Π°Π½Π½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ ΡΠ²ΡΠ·Π°Π½Ρ Ρ ΡΠ΅ΠΌ, ΡΡΠΎ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΡΡΠ°Π΅ΡΡΡ ΠΏΠΎΠ΄ΡΡΡΠΎΠΈΡΡΡΡ ΠΏΠΎΠ΄ ΡΠ°Π·Π½ΠΎΠ΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΠΈΡΠ΅ΡΠ°ΡΠΈΠΉ Π²ΠΎ Π²ΡΠ΅ΠΌΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ.
ΠΡΠΎΠ²Π΅ΡΠΈΠΌ Π³ΠΈΠΏΠΎΡΠ΅Π·Ρ:
ΠΠΈΠΏΠΎΡΠ΅Π·Π°
ΠΠΎΠ΄Π΅Π»Ρ ΠΈΠΌΠ΅Π΅Ρ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΡΠ°ΡΡΡ ΡΠΎΠΊΠ΅Π½ΠΎΠ² ΠΊΠ°ΠΊ Ρ ΡΠ°Π½ΠΈΠ»ΠΈΡΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ Ρ ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠ΅Π³ΠΎ ΡΠ°Π³Π°.
ΠΠΎΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ². ΠΡΠ΄Π΅ΠΌ ΡΠ±ΠΈΡΠ°ΡΡ ΠΊΠ°ΠΊ
Π§ΡΠΎΠ±Ρ ΠΏΠΎΠ½ΡΡΡ, Π½Π°ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΠΎΠ±ΡΠ΅Π·Π°ΡΡ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΠΎΠ΄Π°ΡΡΡΡ Π² ΠΌΠΎΠ΄Π΅Π»Ρ, Π·Π°ΠΌΠ°ΡΠΊΠΈΡΡΠ΅ΠΌ ΡΠ°ΡΡΡ ΠΈΠ· Π½ΠΈΡ
, ΠΈ ΠΏΠΎΡΠΌΠΎΡΡΠΈΠΌ Π½Π° ΠΌΠ΅ΡΡΠΈΠΊΠΈ.
ΠΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡΡΠ°Π»ΠΈΡΡ Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ
ΠΠ° Π³ΡΠ°ΡΠΈΠΊΠ°Ρ
Π½ΠΈΠΆΠ΅ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅ΡΡ Π²ΠΏΠΎΠ»Π½Π΅ ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΡΠΉ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ - Π΄Π»Ρ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΎΠ±ΡΡΠ΅Π½Π½ΡΡ
Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ
Π’Π°ΠΊΠΆΠ΅ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎ, ΡΡΠΎ ΠΏΡΠΈ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠΈ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π° ΠΈΡΠ΅ΡΠ°ΡΠΈΠΉ ΠΏΡΠΈ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ΅ ΠΌΡ ΠΏΠΎΠ»ΡΡΠ°Π΅ΠΌ ΡΠ°ΠΊΡΡ ΠΆΠ΅ ΠΎΡΠΈΠ±ΠΊΡ Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΡΡΠ°ΠΏΠ΅ ΠΎΡΠ±ΡΠ°ΡΡΠ²Π°Π½ΠΈΡ
ΠΠΎΠΏΡΠΎΠ±ΡΠ΅ΠΌ Π·Π°ΠΌΠ°ΡΠΊΠΈΡΠΎΠ²Π°ΡΡ Π²ΡΠ΅ ΡΠΎΠΊΠ΅Π½Ρ ΠΊΡΠΎΠΌΠ΅
ΠΠ°ΠΊ ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅ΡΡ, ΠΎΡΡΡΠΈΠΌΠΎΠΉ ΡΠ°Π·Π½ΠΈΡΡ ΡΡΠΎ Π½Π΅ Π΄Π°Π»ΠΎ, Π²ΠΈΠ΄ΠΈΠΌΠΎ Π΄Π»Ρ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½ΡΡ
ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠ² ΠΏΠ΅ΡΠ²ΡΠ΅ ΠΈ ΠΏΠΎΡΠ»Π΅Π΄Π½ΠΈΠ΅ ΡΠΎΠΊΠ΅Π½Ρ ΠΈΠΌΠ΅ΡΡ ΡΡ
ΠΎΠΆΡΡ Π²Π°ΠΆΠ½ΠΎΡΡΡ.
ΠΠ΅Π½ΡΡΠ΅Π΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΠΎΠΊΠ΅Π½ΠΎΠ² Π½Π΅Π³Π°ΡΠΈΠ²Π½ΠΎ Π²Π»ΠΈΡΠ΅Ρ Π½Π° ΠΈΡΠΎΠ³ΠΎΠ²ΡΠ΅ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ. ΠΠΎΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°ΡΡ Π²ΡΠ²ΠΎΠ΄ ΡΡΠΎ ΠΈΡΡ
ΠΎΠ΄Π½Π°Ρ Π³ΠΈΠΏΠΎΡΠ΅Π·Π° Π²Π΅ΡΠ½Π°, Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΠ΅
ΡΠΎΠΊΠ΅Π½Ρ Π½Π° Π²Ρ
ΠΎΠ΄Π΅ Π΄Π΅ΠΉΡΡΠ²ΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡΡΠ°ΡΡΡΡ Π΄Π»Ρ Ρ
ΡΠ°Π½Π΅Π½ΠΈΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΎ ΡΠΎΠΊΠ΅Π½Π°Ρ
Ρ ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠ΅ΠΉ ΠΈΡΠ΅ΡΠ°ΡΠΈΠΈ.
ΠΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡ Π² Π±Π»ΠΎΠΊΠ½ΠΎΡΠ°Ρ
experiment_last_n_tokens.ipynb
ΠΈ experiment_first_n_tokens.ipynb
.
Π ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ΅ ΠΏΡΠΎΠ²Π΅Π΄Π΅Π½ΠΈΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² ΠΏΡΠΎΡΠ²ΠΈΠ»ΠΎΡΡ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎΠ΅ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΊΠΎΡΠΎΡΠΎΠ΅ ΠΏΠΎΡΠ΅Π½ΡΠΈΠ°Π»ΡΠ½ΠΎ ΠΌΠΎΠΆΠ΅Ρ Π²Π΅ΡΡΠΈ ΠΊ ΠΏΠ΅ΡΠ΅ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈ ΠΈΠ½ΠΎΠ³Π΄Π° ΠΎΡΡΡΡΡΡΠ²ΠΈΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ Π°Π΄Π°ΠΏΡΠΈΡΠΎΠ²Π°ΡΡΡΡ Π½Π° Π½ΠΎΠ²ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅. ΠΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ 20-30 ΡΠΎΠΊΠ΅Π½ΠΎΠ² ΠΌΡ Π½Π° ΠΎΠ±ΠΎΠΈΡ Π³ΡΠ°ΡΠΈΠΊΠ°Ρ ΠΌΠΎΠΆΠ΅ΠΌ Π½Π°Π±Π»ΡΠ΄Π°ΡΡ ΡΠΌΠ΅Π½ΡΡΠ΅Π½ΠΈΠ΅ ΡΠΎΡΠ½ΠΎΡΡΠΈ, ΠΈ Π½Π° ΠΏΠΎΡΠ»Π΅Π΄Π½Π΅ΠΉ ΡΠΎΡΠΊΠ΅ ΠΏΠ΅ΡΠ΅Π΄ ΡΠΊΠ°ΡΠΊΠΎΠΌ ΡΠ΅Π·ΠΊΠΎΠ΅ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠ΅ ΡΠΎΡΠ½ΠΎΡΡΠΈ. ΠΠ°Π½Π½ΠΎΠ΅ ΠΏΠΎΠ²Π΅Π΄Π½ΠΈΠ΅ ΡΡΠΎΠΈΡ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΡ Π½Π° ΡΠ°Π·Π½ΠΎΠΉ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΠΈ, ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π΅ ΡΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈ Π΄ΡΡΠ³ΠΈΡ Π·Π°Π΄Π°ΡΠ°Ρ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ (Π΄Π΅ΡΠ΅Π²ΠΎ, MLP, ... ).
Π’Π°ΠΊΠΆΠ΅ ΠΏΡΠΈ ΠΌΠ°ΡΠΊΠΈΡΠΎΠ²Π°Π½ΠΈΠΈ
ΠΡΠΎΠ²Π΅ΡΠΈΠΌ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½ΡΡ
ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠ²
ΠΏΡΠΈ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ Ρ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎΠΌ ΡΠ»ΠΎΠ΅Π²
ΠΡΠ΄Π΅ΠΌ ΠΎΠ±ΡΡΠ°ΡΡ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½ΡΠ΅ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΡ Ρ Π²Π°ΡΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ
ΠΠ°Π½Π½ΡΠΉ ΠΏΠ°ΡΡΠ΅ΡΠ½ ΠΏΠΎΠ²ΡΠΎΡΡΠ΅ΡΡΡ Ρ ΡΠ°Π·Π½ΡΠΌ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠΌ
ΠΠ· ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎΠ³ΠΎ ΡΡΠΎΠΈΡ ΠΎΡΠΌΠ΅ΡΠΈΡΡ, ΡΡΠΎ, ΡΠ΅ΠΌ Π±ΠΎΠ»ΡΡΠ΅ ΡΠ»ΠΎΠ΅Π² Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΡΠ΅ΠΌ Π±ΠΎΠ»ΡΡΠ΅ ΡΠ°Π³ΠΎΠ² ΠΈΡΠ΅ΡΠ°ΡΠΈΠΈ Π΅ΠΉ Π½Π΅ΠΎΠ±Ρ
ΠΎΠ΄ΠΈΠΌΠΎ ΡΡΠΎΠ±Ρ ΡΠΎΠΉΡΠΈΡΡ. Π ΠΏΡΠΈΠΌΠ΅ΡΡ, Π΄Π»Ρ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ
![]() |
![]() |
ΠΠΎΠ»ΡΡΠ°Π΅ΡΡΡ, ΡΡΠΎ ΡΡ
ΠΎΠ΄ΠΈΠΌΠΎΡΡΡ Π·Π°Π²ΠΈΡΠΈΡ Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ ΠΎΡ ΡΠΈΡΠ»Π° ΠΈΡΠ΅ΡΠ°ΡΠΈΠΉ
ΠΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½Ρ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΡΡ Π² Π±Π»ΠΎΠΊΠ½ΠΎΡΠ΅
experiment_looped_n_layers.ipynb
.
Π Π΄Π°Π½Π½ΠΎΠΉ ΡΠ΅ΡΠΈΠΈ ΡΠΊΡΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½ΡΠΎΠ² ΠΏΠΎΠΏΡΠΎΠ±ΡΠ΅ΠΌ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΡ ΠΊΠ°ΠΊ Π²Π΅Π΄Π΅Ρ ΡΠ΅Π±Ρ Mamba (Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° ΠΈΠ· ΡΡΠ°ΡΡΠΈ Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality ). Π Π΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ Π²Π·ΡΡΠ° ΠΈΠ· Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠΈ zetascale
ΠΈ ΡΠ΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΡ mamba-minimal. Π‘ΡΠΎΠΈΡ Π·Π°ΠΌΠ΅ΡΠΈΡΡ, ΡΡΠΎ Π²ΡΠ΅ΠΌΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΠΈΠ»ΡΠ½ΠΎ Π±ΠΎΠ»ΡΡΠ΅ Π² ΠΎΡΠ»ΠΈΡΠΈΠ΅ ΡΡΠ°Π½Π΄Π°ΡΡΠ½ΠΎΠ³ΠΎ Π±Π»ΠΎΠΊΠ° ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠ°, ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΡΠ°ΠΌ Π½Π΅ ΡΠ΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½Ρ ΠΌΠ½ΠΎΠ³ΠΈΠ΅ ΠΌΠ΅ΡΠΎΠ΄Ρ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ. ΠΠΌΠ΅ΡΡΠΎ ΡΡΠ°Π½Π΄Π°ΡΡΠ½ΠΎΠ³ΠΎ Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ
ΠΡΠΎΠ²Π΅ΡΠΈΠΌ ΡΠ»Π΅Π΄ΡΡΡΡΡ Π³ΠΈΠΏΠΎΡΠ΅Π·Ρ:
ΠΠΈΠΏΠΎΡΠ΅Π·Π°
ΠΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π±ΡΠ΄Π΅Ρ ΠΏΠΎΡ ΠΎΠΆΠ΅ ΠΊΠ°ΠΊ ΠΏΡΠΈ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠ΅, ΡΠ°ΠΊ ΠΈ ΠΏΡΠΈ Π²Π°Π»ΠΈΠ΄Π°ΡΠΈΠΈ.
ΠΠ»Ρ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π°ΠΌΠ΅Π½ΠΈΠΌ ΠΎΡΠ½ΠΎΠ²Π½ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ GPT-nano Π½Π° Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΡ Mamba. Π‘Π°ΠΌΠ° ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ Π½Π°Ρ
ΠΎΠ΄ΠΈΡΡΡ Π² mamba_nano.py
. ΠΡΠ»Π° ΠΎΠ±ΡΡΠ΅Π½Π° Π±Π°Π·ΠΎΠ²Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Ρ ΡΠ°Π·Π½ΡΠΌ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎΠΌ ΠΈΡΠ΅ΡΠ°ΡΠΈΠΉ. Π Π°Π·Π½ΠΎΠ΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΠ°Π³ΠΎΠ² Π²ΡΠ·Π²Π°Π½ΠΎ Π±ΠΎΠ»ΡΡΠΈΠΌ Π²ΡΠ΅ΠΌΠ΅Π½Π΅ΠΌ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΌΡ Π²ΡΠ΅ ΡΠ°Π²Π½ΠΎ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΡΠΎΡΠ»Π΅Π΄ΠΈΡΡ ΠΎΡΠ½ΠΎΠ²Π½ΡΠ΅ ΠΌΠΎΠΌΠ΅Π½ΡΡ, ΡΠ°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ Π²ΡΡ
ΠΎΠ΄ Π½Π° ΠΏΠ»Π°ΡΠΎ ΠΈ Π½Π°ΡΠ°Π»ΠΎ ΠΏΠ°Π΄Π΅Π½ΠΈΡ ΡΠ΅Π»Π΅Π²ΠΎΠΉ ΠΌΠ΅ΡΡΠΈΠΊΠΈ. Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΏΡΠΈΠ²Π΅Π΄Π΅Π½Ρ Π½Π° Π³ΡΠ°ΡΠΈΠΊΠ΅ Π½ΠΈΠΆΠ΅. ΠΠ»Ρ Π±ΠΎΠ»Π΅Π΅ Π½Π°Π³Π»ΡΠ΄Π½ΠΎΠ³ΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΎΡΡ ΡΠΊΠΎΠ»ΡΠ·ΡΡΠ΅Π΅ ΡΡΠ΅Π΄Π½Π΅Π΅.
ΠΠ°ΠΊ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠ²ΠΈΠ΄Π΅ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ, ΠΏΡΠΎΡΠ²Π»ΡΠ΅Ρ ΡΠ΅Π±Ρ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎ - Π½Π° ΠΏΠ΅ΡΠ²ΡΡ ΠΈΡΠ΅ΡΠ°ΡΠΈΡΡ ΠΊΠ²Π°Π΄ΡΠ°ΡΠΈΡΠ½Π°Ρ ΠΎΡΠΈΠ±ΠΊΠ° ΠΏΠ°Π΄Π°Π΅Ρ ΡΠΈΠ»ΡΠ½ΠΎ Π±ΡΡΡΡΠ΅Π΅, ΡΠ΅ΠΌ Ρ Looped TF, ΠΈ Π΄Π°Π»Π΅Π΅ ΠΈΠ΄Π΅Ρ Π²ΡΡ ΠΎΠ΄ Π½Π° ΠΏΠ»Π°ΡΠΎ, Π½ΠΎ Π½Π΅ΡΠΌΠΎΡΡΡ Π½Π° ΡΡΠΈ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»ΠΈ, ΠΈΡΠΎΠ³ΠΎΠ²Π°Ρ ΠΎΡΠΈΠ±ΠΊΠ° Ρ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π½Π° Π±Π°Π·Π΅ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ Mamba Π±ΠΎΠ»ΡΡΠ΅, ΡΠ΅ΠΌ Ρ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π½Π° Π±Π°Π·Π΅ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠ². ΠΠΎΡΠΌΠΎΡΡΠ΅Π² Π½Π° Π³ΡΠ°ΡΠΈΠΊ Π½ΠΈΠΆΠ΅, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡΠ΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡΡ, ΡΡΠΎ Mamba Π½Π°ΠΊΠ°ΠΏΠ»ΠΈΠ²Π°Π΅Ρ Π±ΠΎΠ»ΡΡΠ΅ ΠΎΡΠΈΠ±ΠΎΠΊ Π² ΠΏΡΠΎΡΠ΅ΡΡΠ΅ Π²ΡΠΏΠΎΠ»Π½Π΅Π½ΠΈΡ (ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠΌ, ΠΊΠΎΡΠΎΡΡΠΉ ΡΡΠ°Π½ΠΎΠ²ΠΈΡΡΡ Π±ΠΎΠ»Π΅Π΅ ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΡΠΌ).
ΠΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎ, ΡΡΠΎ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½Π°Ρ Mamba ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π΅Ρ ΡΠ΅Π±Ρ ΡΡΠ°Π±ΠΈΠ»ΡΠ½Π΅Π΅ Π½Π° Π±ΠΎΠ»ΡΡΠ΅ΠΌ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π΅ ΠΈΡΠ΅ΡΠ°ΡΠΈΠΉ ΠΏΡΠΈ Π²Π°Π»ΠΈΠ΄Π°ΡΠΈΠΈ. ΠΡΠ½ΠΎΠ²Π½Π°Ρ Π³ΠΈΠΏΠΎΡΠ΅Π·Π° ΡΠΎΡΡΠΎΠΈΡ Π² ΡΠΎΠΌ, ΡΡΠΎ ΡΠ°ΠΌΠ° Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±ΠΎΠ»Π΅Π΅ Π½Π°ΡΡΡΠ°Π»ΡΠ½ΠΎ ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π² ΡΠΈΠΊΠ»Π΅. ΠΠΎΡΠΊΠΎΠ»ΡΠΊΡ Mamba ΡΡΠΎ sequence-based network, Π² ΡΠ΅ΠΎΡΠΈΠΈ ΠΎΠ½Π° ΠΌΠΎΠΆΠ΅Ρ Π±ΠΎΠ»Π΅Π΅ Π½Π°ΡΡΡΠ°Π»ΡΠ½ΠΎ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ ΡΠΈΠΊΠ»Π°ΠΌΠΈ, ΠΎΠ΄Π½Π°ΠΊΠΎ ΡΡΠΎΡ ΡΠ΅Π·ΠΈΡ ΡΡΠΎΠΈΡ ΠΏΡΠΎΠ²Π΅ΡΠΈΡΡ ΠΎΡΠ½ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½Π΅Π΅, Π½Π° Π΄ΡΡΠ³ΠΈΡ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½Π΅ΡΠ°Ρ .
ΠΠ»Ρ ΠΊΠΎΠ½Π΅ΡΠ½ΡΡ Π²ΡΠ²ΠΎΠ΄ΠΎΠ² ΠΏΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Π΄Π°Π½Π½ΠΎΠΉ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ ΠΈ Π΅Π΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠ΅ΠΉ Ρ Π·Π°ΡΠΈΠΊΠ»ΠΈΠ²Π°Π½ΠΈΠ΅ΠΌ ΡΡΠΎΠΈΡ ΠΏΡΠΎΠ²Π΅ΡΡΠΈ Π±ΠΎΠ»ΡΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½ΡΠΎΠ². ΠΠΎ Π²Π²ΠΈΠ΄Ρ ΡΠΈΠ»ΡΠ½ΠΎΠ³ΠΎ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΡ Π²ΡΠ΅ΠΌΠ΅Π½ΠΈ ΡΠ°Π±ΠΎΡΡ, ΡΠ΄Π΅Π»Π°ΡΡ ΡΡΠΎ ΡΡΠΆΠ΅Π»ΠΎ, Π½Π΅ ΠΏΡΠΈΠ±Π΅Π³Π°Ρ ΠΊ ΡΠ΅ΠΌ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡΠΌ (ΠΎΠ΄Π½Π° ΠΈΠ· ΡΠ°ΠΌΡΡ Π²Π°ΠΆΠ½ΡΡ ΡΠ°ΡΡΠ΅ΠΉ ΡΡΠ°ΡΡΠΈ), ΠΊΠΎΡΠΎΡΡΠ΅ Π΄Π΅Π»Π°ΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Mamba Π±ΡΡΡΡΠ΅Π΅ ΠΏΡΠΈ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠΈ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ°. ΠΠ΄Π½Π°ΠΊΠΎ, ΠΈΠ·Π½Π°ΡΠ°Π»ΡΠ½Π°Ρ Π³ΠΈΠΏΠΎΡΠ΅Π·Π° Π½Π΅ ΠΏΠΎΠ΄ΡΠ²Π΅ΡΠ΄ΠΈΠ»Π°ΡΡ - ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΠΊΠ°Π·Π°Π»Π° ΡΠ΅Π±Ρ ΡΠ»Π°Π±Π΅Π΅ ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠ², ΠΎΠ΄Π½Π°ΠΊΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΡΠΉ ΡΡΠ½ΠΈΠ½Π³ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΠΌΠΎΠΆΠ΅Ρ ΠΏΠΎΠΌΠΎΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄ΠΎΡΡΠΈΠ³Π½ΡΡΡ ΠΏΠΎΡ ΠΎΠΆΠΈΡ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»Π΅ΠΉ ΡΠΎΡΠ½ΠΎΡΡΠΈ. Π Ρ ΠΎΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ Π΄ΠΎΡΡΠΈΠ³Π°Π΅Ρ ΠΌΠ΅Π½ΡΡΠ΅ΠΉ ΡΠΎΡΠ½ΠΎΡΡΠΈ ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠ°ΠΌΠΈ, ΠΌΠΎΠΆΠ½ΠΎ ΡΠ²ΠΈΠ΄Π΅ΡΡ, ΡΡΠΎ Π΅Π΅ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½Π°Ρ Π²Π΅ΡΡΠΈΡ Π²Π΅Π΄Π΅Ρ ΡΠ΅Π±Ρ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Π»ΡΡΡΠ΅, Π° ΡΡΠΎ Π·Π½Π°ΡΠΈΡ, ΡΡΠΎ ΠΈ Ρ Π΄ΡΡΠ³ΠΈΠΌΠΈ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ°ΠΌΠΈ ΠΈΡ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½ΡΠ΅ Π²Π΅ΡΡΠΈΠΈ ΠΌΠΎΠ³ΡΡ Π΄Π°ΡΡ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΡΠΉ ΠΏΡΠΈΡΠΎΡΡ Π² ΡΠΎΡΠ½ΠΎΡΡΠΈ.
ΠΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΎΡΠ½ΠΎΠ²ΡΡ
ΡΠ»Π΅ΠΌΠ΅Π½ΡΠΎΠ² Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΠ²Π»ΡΠ΅ΡΡΡ ΡΠΈΠΊΠ» Ρ Π½Π°Ρ
ΠΎΠ΄ΡΡΠΈΠΌΡΡ Π²Π½ΡΡΡΠΈ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠΎΠΌ. Π’Π°ΠΊ ΠΊΠ°ΠΊ ΠΌΡ ΡΡΠ°ΡΠ°Π΅ΠΌΡΡ ΠΈΠΌΠΈΡΠΈΡΠΎΠ²Π°ΡΡ ΠΈΡΠ΅ΡΠ°ΡΠΈΠ²Π½ΡΠ΅ Π°Π»Π³ΠΎΡΠΈΡΠΌΡ, ΠΏΠΎΠΏΡΠΎΠ±ΡΠ΅ΠΌ ΠΏΠΎΠ·Π°ΠΈΠΌΡΡΠ²ΠΎΠ²Π°ΡΡ ΠΈΠ΄Π΅Ρ ΠΈΠ· Π³ΡΠ°Π΄ΠΈΠ΅Π½ΡΠ½ΠΎΠ³ΠΎ ΡΠΏΡΡΠΊΠ°. ΠΠ°Π΄ΠΈΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½ΠΎΠ²ΡΠΉ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡ lr
.
ΠΠ±ΡΡΠΈΠΌ Π΄Π»Ρ Π±ΠΎΠ»Π΅Π΅ ΡΠΏΡΠ°Π²Π΅Π΄Π»ΠΈΠ²ΠΎΠ³ΠΎ ΠΎΡΠ΅Π½ΠΈΠ²Π°Π½ΠΈΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Ρ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°ΠΌΠΈ
Π ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ΅ ΠΌΡ ΠΏΠΎΠ»ΡΡΠΈΠ»ΠΈ Π±ΠΎΠ»Π΅Π΅ ΡΠΎΡΠ½ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ. ΠΡΠΈ Π±ΠΎΠ»ΡΡΠΈΡ
ΠΈΡΠ΅ΡΠ°ΡΠΈΡΡ
, Π·Π° ΠΈΡΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅ΠΌ ΡΠ΅Π΄ΡΠ»ΠΈΠ½Π³Π°, Π³Π΄Π΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ ΠΈΠ΄Π΅Π½ΡΠΈΡΠ΅Π½, ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅ΡΡ, ΡΡΠΎ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½Π°Ρ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ ΠΎ ΡΠΈΠΊΠ»Π΅ ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ ΡΠΌΠ΅Π½ΡΡΠΈΡΡ ΠΎΡΠΈΠ±ΠΊΡ ΠΏΠΎΡΠ»Π΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ. Π Π°Π·Π½ΠΈΡΠ° Π² ΠΊΠ²Π°Π΄ΡΠ°ΡΠΈΡΠ½ΠΎΠΉ ΠΎΡΠΈΠ±ΠΊΠ΅ ΡΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ ~0.005, ~0.005, ~0.0024 Π΄Π»Ρ
b=5 | b=10 | b=15 | |
---|---|---|---|
Classic model | 0.0067 | 0.0070 | 0.00328 |
LR model | 0.0014 | 0.0019 | 0.00086 |
ΠΠΎΡΠΌΠΎΡΡΠΈΠΌ Π½Π° Π³ΡΠ°ΡΠΈΠΊ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ Π½Π° ΡΠΊΠΎΠ»ΡΠ·ΡΡΠ΅Π΅ ΡΡΠ΅Π΄Π½Π΅Π΅ Π²ΠΎ Π²ΡΠ΅ΠΌΡ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ. ΠΠΎΠΆΠ΅ΠΌ ΡΠ²ΠΈΠ΄Π΅ΡΡ ΡΡΠΎ Π½Π°ΡΠ΅ Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ ΠΊ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ΅ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΡΡΠΊΠΎΡΠΈΡΡ ΡΡ ΠΎΠ΄ΠΈΠΌΠΎΡΡΡ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ°.
ΠΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½Ρ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΡΡ Π² Π±Π»ΠΎΠΊΠ½ΠΎΡΠ΅ experiment_bonus.ipynb
.
ΠΠΎΡΠΊΠΎΠ»ΡΠΊΡ Looped TFs ΠΈΠΌΠ΅ΡΡ ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ²ΠΎ Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΈΡ ΡΠΈΡΡΠ°ΡΠΈΡΡ Π½Π°Π΄ ΠΎΠ±ΡΡΠ½ΡΠΌΠΈ TF Ρ ΡΠ°ΠΊΠΈΠΌ ΠΆΠ΅ ΠΈΠ»ΠΈ Π±ΠΎΠ»ΡΡΠΈΠΌ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎΠΌ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ ΡΡΠΎΠ³ΠΎ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΡ ΠΌΠΎΠΆΠ΅Ρ ΠΏΠΎΠΌΠΎΡΡ Π² ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ ΠΏΡΠΈΡΠΎΠ΄Ρ ΡΠ°ΠΊΠΎΠ³ΠΎ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΡ. ΠΠ°ΠΊ ΠΎΠ΄ΠΈΠ½ ΠΈΠ· Π²Π°ΡΠΈΠ°Π½ΡΠΎΠ², ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΠΌΠΎΡΡΠ΅ΡΡ Π½Π° Π»Π°Π½Π΄ΡΠ°ΡΡ ΠΏΠΎΡΠ΅ΡΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ ΠΏΠΎΡΠΌΠΎΡΡΠ΅ΡΡ Π½Π° ΠΈΡ ΡΠ°Π·Π»ΠΈΡΠΈΡ. ΠΠ΅ΡΠΎΠ΄ Π²Π·ΡΡ ΠΈΠ· ΡΡΠ°ΡΡΠΈ Visualizing the Loss Landscape of Neural Nets.
ΠΡΠ»ΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΎ 5 ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ - ΠΎΠ΄ΠΈΠ½ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½ΡΠΉ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅Ρ ΡΠΎ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ
ΠΠΎΠΆΠ½ΠΎ ΡΠ²ΠΈΠ΄Π΅ΡΡ, ΡΡΠΎ Ρ Looped TF Π»Π°Π½Π΄ΡΠ°ΡΡ ΠΏΠΎΡΠ΅ΡΡ Π±ΠΎΠ»Π΅Π΅ ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ, ΡΠ΅ΠΌ Ρ ΠΎΠ±ΡΡΠ½ΠΎΠ³ΠΎ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΠ°. Π’Π°ΠΊΠΆΠ΅ Π² ΡΡΠ΄Π΅ ΡΠ»ΡΡΠ°Π΅Π² Π»Π°Π½Π΄ΡΠ°ΡΡ ΠΈΠΌΠ΅Π΅Ρ Π±ΠΎΠ»Π΅Π΅ ΠΊΡΡΡΡΠ΅ ΡΠΏΡΡΠΊΠΈ Π² ΠΎΠΊΡΠ΅ΡΡΠ½ΠΎΡΡΠΈ ΡΠΎΡΠΊΠΈ ΠΌΠΈΠ½ΠΈΠΌΡΠΌΠ°, ΡΡΠΎ ΠΌΠΎΠΆΠ΅Ρ ΡΠ²ΠΈΠ΄Π΅ΡΠ΅Π»ΡΡΡΠ²ΠΎΠ²Π°ΡΡ ΠΎ Π±ΠΎΠ»Π΅Π΅ ΡΠΊΠΎΡΠΎΠΉ ΡΡ
ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ. ΠΡΠΎ ΠΆΠ΅ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΈΠ΄Π΅ΡΡ Π½Π° Π³ΡΠ°ΡΠΈΠΊΠ°Ρ
ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π₯ΠΎΡΡ ΠΏΠΎ Π³ΡΠ°ΡΠΈΠΊΠ°ΠΌ Π½Π΅Π»ΡΠ·Ρ ΠΎΠ΄Π½ΠΎΠ·Π½Π°ΡΠ½ΠΎ Π³ΠΎΠ²ΠΎΡΠΈΡΡ, ΡΡΠΎ Π²Π»ΠΈΡΠ΅Ρ Π½Π° ΡΠ°ΠΊΠΎΠ΅ Ρ
ΠΎΡΠΎΡΠ΅Π΅ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ Ρ Looped TF, Π½ΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π΄Π°ΡΡ Π½Π΅ΠΊΠΎΡΠΎΡΡΠ΅ ΠΈΠ΄Π΅ΠΈ ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠΎΠ³ΠΎ, ΡΡΠΎ ΠΌΠΎΠΆΠ΅Ρ ΠΏΡΠΎΠΈΡΡ
ΠΎΠ΄ΠΈΡΡ ΠΏΡΠΈ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ.
ΠΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡ Π² Π½ΠΎΡΡΠ±ΡΠΊΠ΅ loss_surface.ipynb
, 3Π΄ Π³ΡΠ°ΡΠΈΠΊΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ²ΠΈΠ΄Π΅ΡΡ ΡΠ°ΠΌ ΠΆΠ΅ ΠΈΠ»ΠΈ Π² ΠΏΠ°ΠΏΠΊΠ΅ images
.
ΠΡ ΠΏΡΠΎΠ²Π΅Π»ΠΈ ΡΡΠ΄ ΡΠΊΡΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½ΡΠΎΠ² Ρ Looped TF ΠΈ TF, Π²Π°ΡΡΠΈΡΠΎΠ²Π°Π»ΠΈ ΠΈΡ
ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ ΠΈ ΠΏΠΎΠΏΡΡΠ°Π»ΠΈΡΡ ΠΈΠ½ΡΠ΅ΡΠΏΠ΅ΡΡΠΈΡΠΎΠ²Π°ΡΡ Π²ΡΠ²ΠΎΠ΄ ΠΌΠΎΠ΄Π΅Π»ΠΈ. ΠΠΎΠΆΠ½ΠΎ ΡΠΊΠ°Π·Π°ΡΡ, ΡΡΠΎ Π·Π°ΡΠΈΠΊΠ»Π΅Π½Π½ΡΠ΅ ΡΡΠ°Π½ΡΡΠΎΡΠΌΠ΅ΡΡ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ ΡΠ²ΠΎΡ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ Π² Π·Π°Π΄Π°ΡΠ°Ρ
Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΈ. ΠΠ½ΠΎΠ³ΠΈΠ΅ Π²ΡΠ²ΠΎΠ΄Ρ, ΡΠ΄Π΅Π»Π°Π½Π½ΡΠ΅ Π² ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΠΎΠΉ ΡΡΠ°ΡΡΠ΅, ΠΏΠΎΠ΄ΡΠ²Π΅ΡΠ΄ΠΈΠ»ΠΈΡΡ.
ΠΡΠ»ΠΎ Π²ΡΡΡΠ½Π΅Π½ΠΎ, ΡΡΠΎ ΠΏΡΠΈ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠΈ ΡΠΈΡΠ»Π° ΡΠ»ΠΎΠ΅Π² ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π΅Π»ΠΈ ΡΠ΅Π±Ρ ΠΎΠΆΠΈΠ΄Π°Π΅ΠΌΠΎ, ΡΠ»ΡΡΡΠ°Ρ ΠΈΡΠΎΠ³ΠΎΠ²ΠΎΠ΅ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ ΠΌΠ΅ΡΡΠΈΠΊ, ΠΎΠ΄Π½Π°ΠΊΠΎ Π΅ΡΠ»ΠΈ ΡΠ»ΠΎΠ΅Π² ΡΡΠ°Π½ΠΎΠ²ΠΈΠ»ΠΎΡΡ ΡΠ»ΠΈΡΠΊΠΎΠΌ ΠΌΠ½ΠΎΠ³ΠΎ, ΠΌΠΎΠ΄Π΅Π»Ρ ΡΡ
ΠΎΠ΄ΠΈΠ»Π°ΡΡ ΡΠΈΠ»ΡΠ½ΠΎ Π΄ΠΎΠ»ΡΡΠ΅ (ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎ ΠΏΡΠΈ ΡΠ²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠΈ
Π§ΡΠΎΠ±Ρ ΡΠ»ΡΡΡΠΈΡΡ ΠΎΠ±ΠΎΠ±ΡΠ°ΡΡΠΈΠ΅ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡΠΎΠ²Π΅ΡΡΠΈ Π±ΠΎΠ»ΡΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² Ρ Π²Π°ΡΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ
ΠΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° Mamba ΠΈ Π΅Π΅ "Looped" Π²Π΅ΡΡΠΈΡ ΠΏΠΎΠΊΠ°Π·Π°Π»Π° ΡΠ΅Π±Ρ ΠΌΠ½ΠΎΠ³ΠΎΠΎΠ±Π΅ΡΠ°ΡΡΠ΅, ΠΈ Ρ ΠΎΡΡ Π½Π΅ ΠΏΠΎΠ»ΡΡΠΈΠ»ΠΎΡΡ ΠΏΡΠΎΠ²Π΅ΡΡΠΈ Π²ΡΠ΅ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ, Π²Π²ΠΈΠ΄Ρ Π΄ΠΎΠ»Π³ΠΎΠ³ΠΎ Π²ΡΠ΅ΠΌΠ΅Π½ΠΈ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ, ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Π°Π»Π° ΡΠ΅Π±Ρ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ Ρ ΠΎΡΠΎΡΠΎ, ΡΡΠΎΠ±Ρ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΡ Π½Π° Π½Π΅ΠΉ Π·Π°Π΄Π°ΡΡ In-Context learning Π² ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Universal Transformer.
Π‘Π°ΠΌΠ° ΠΆΠ΅ ΠΈΠ½ΡΠ΅ΡΠΏΡΠ΅ΡΠ°ΡΠΈΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π²ΡΠ·ΡΠ²Π°Π΅Ρ Π±ΠΎΠ»ΡΡΠΎΠΉ ΠΈΠ½ΡΠ΅ΡΠ΅Ρ. Π‘ΡΠΎΠΈΡ Π±ΠΎΠ»Π΅Π΅ Π²Π½ΠΈΠΌΠ°ΡΠ΅Π»ΡΠ½ΠΎ ΠΈΠ·ΡΡΠΈΡΡ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΊΠ°ΠΊ ΠΈΡΠ΅ΡΠ°ΡΠΈΠ²Π½ΠΎΠ³ΠΎ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ° Π² Π·Π°Π΄Π°ΡΠ΅ In-Context learning Π΄Π»Ρ Π±ΠΎΠ»Π΅Π΅ ΡΠ»ΠΎΠΆΠ½ΡΡ Π·Π°Π΄Π°Ρ, ΡΠ°ΠΊΠΈΡ ΠΊΠ°ΠΊ ΡΠ·ΡΠΊΠΎΠ²ΠΎΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ (LM) ΠΈΠ»ΠΈ ΠΆΠ΅ ΠΊΠΎΠΌΠΏΡΡΡΠ΅ΡΠ½ΠΎΠ΅ Π·ΡΠ΅Π½ΠΈΠ΅ (CV).