NER ๋ฐ์ดํฐ์ ์ ๊ฐ์ฒด๋ช ์ธ์(Named Entity Recognition) ๋ฐ์ดํฐ์ ์ ๋๋ค.
(ํด๋น ๋ฐ์ดํฐ์ ์ ํ๊ตญ์ด ์์ฐ์ด ์ดํด ํ๊ฐ ๋ฒค์น๋งํฌ์ธ KLUE ๋ฐ์ดํฐ์ ์ ์ผ๋ถ์ด๋, ๊ธฐ์กด ๋ฒค์น๋งํฌ์๋ ๋ค๋ฆ์ ์๋ฆฝ๋๋ค.)
- ํน์ง
- ํฌ๋งท
- ๊ตฌ์ฑ
- ๋ผ์ด์ผ์ค
## 1. ํน์ง
NER ๋ฐ์ดํฐ์ ์ TTA ๊ฐ์ฒด๋ช ํ๊ทธ ์ธํธ ๋ฐ ํ๊น ๋ง๋ญ์น ๊ฐ์ด๋๋ผ์ธ(https://nanum.etri.re.kr/file/002.%EA%B0%9C%EC%B2%B4%EB%AA%85%EC%9D%B8%EC%8B%9D_%EA%B0%80%EC%9D%B4%EB%93%9C%EB%9D%BC%EC%9D%B8.pdf) ์ ์ผ๋ถ ํ๊ทธ ์ ์ธ PS (Person), LC (Location), OG (Organization), DT (Date), TI (Time), QT (Quantity)๊ณผ ์ฃผ์ ์์น์ ๊ธฐ๋ฐ์ผ๋ก ์ฃผ์๋์์ต๋๋ค. TTA์์ ์ ์๋ ํ๊ทธ ์ค MUC-7(http://ai-center.botik.ru/Airec/images/stories/Articles/Collections/muc-guidelines/MUC_7_NER_markup.pdf)์์ ์ ์๋ ORGANIZATION, PERSON, LOCATION, DATE, TIME, MONEY, PERCENT์ ํด๋นํ๋ ์ฌ์ฏ ๊ฐ์ง ํ๊ทธ๋ฅผ ์ ์ ํ์์ต๋๋ค.
์์ธํ ์ ๋ณด๋ KLUE ๋ ผ๋ฌธ์ Named Entity Recognition ์น์ ์์ ํ์ธํ์ค ์ ์์ต๋๋ค.
NER ๋ฐ์ดํฐ์ ์ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ##๋ค์ ๊ฐ์ฒด๋ช ์ด ์ฃผ์๋ ๋ฌธ์ฅ์ด ์ ์๋๋ฉฐ, ๋ฌธ์ฅ์ ์์ ๋จ์๋ก ๋ถ์ํ๊ณ ์์ต๋๋ค. ๊ฐ ์์ ์ BIO ์ฃผ์์ด ๋์ด ์์ต๋๋ค.
## klue-ner-v1_train_00001_nsmc <ํ๊ตฐ๋ฐ:QT>์ ํ๋ฆ์ ๋๋ฌด ๋ญ๋นํ ์ํ์
๋๋ค.
ํ B-QT
๊ตฐ I-QT
๋ฐ I-QT
์ O
O
ํ O
๋ฆ O
์ O
O
๋ O
๋ฌด O
O
๋ญ O
๋น O
ํ O
O
์ O
ํ O
์
O
๋ O
๋ค O
. O
๊ฐ์ฒด๋ช ์ฃผ์์ ํ์ฉ๋ ํ๊ทธ์ ๋ํ ์ค๋ช ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Label | Description |
---|---|
PS | Person, ๊ฐ์ธ ๋ฐ ๋จ์ฒด์ ๊ณ ์ ๋ช |
LC | Location, ํ์ ๊ตฌ์ญ ๋ฐ ์ง์ญ ๊ด๋ จ ๊ณ ์ ๋ช |
OG | Organization, ๊ธฐ๊ด, ๋จ์ฒด, ํ์ฌ ๋ฑ์ ๊ณ ์ ๋ช |
DT | Date, ๋ ์ง, ๊ธฐ๊ฐ, ์๋ ๊ด๋ จ ํํ |
TI | Time, ์๊ฐ ๊ด๋ จ ํํ |
QT | Quantity, ์๋์ด๋ ์ซ์ ๊ด๋ จ ํํ |
๋ค์์ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ์ ๋๋ค.
# ์ ์ฒด ๋ฐ์ดํฐ
./dataset/
# ํ์ต์ ์ฌ์ฉํ ๋ฐ์ดํฐ์
. train ์ ๊ณต.
./train/
# ํ์ต์ฉ train set
./train.csv
ํ์ต ๋ฐ์ดํฐ๋ก๋ ์ด 21,008๊ฐ์ ๋ฌธ์ฅ์ด ์ ๊ณต๋ฉ๋๋ค.
์์ฑ์: ํ์ง์ค jiyoonhan@upstage.ai