Update README.md
Browse files
README.md
CHANGED
|
@@ -1,38 +1,42 @@
|
|
| 1 |
---
|
| 2 |
language:
|
| 3 |
-
- ko
|
| 4 |
-
- ja
|
| 5 |
-
- zh
|
|
|
|
| 6 |
license: apache-2.0
|
| 7 |
library_name: optimum
|
| 8 |
tags:
|
| 9 |
-
- translation
|
| 10 |
-
- m2m100
|
| 11 |
-
- korean
|
| 12 |
-
- japanese
|
| 13 |
-
- chinese
|
| 14 |
-
-
|
| 15 |
-
-
|
|
|
|
| 16 |
pipeline_tag: translation
|
| 17 |
base_model: facebook/m2m100_1.2B
|
| 18 |
datasets:
|
| 19 |
-
- custom-k-tourism-corpus
|
| 20 |
---
|
| 21 |
|
| 22 |
# M2M100 Korean Tourism Translator (ONNX)
|
| 23 |
|
| 24 |
-
์ด ๋ชจ๋ธ์ `facebook/m2m100_1.2B` ๋ชจ๋ธ์
|
| 25 |
|
| 26 |
-
์ฃผ์ ๊ธฐ๋ฅ์ ํ๊ตญ์ด(ko)
|
| 27 |
|
| 28 |
-
- **Base Model
|
| 29 |
-
- **Specialization
|
| 30 |
-
- **Target Languages
|
| 31 |
-
- **Format
|
| 32 |
|
| 33 |
## Model Description
|
| 34 |
|
| 35 |
-
M2M100์ ๋ณ๋์ ์ธ์ด ์ง์ ์์ด 100๊ฐ ์ธ์ด ๊ฐ์ ๋ฒ์ญ์ ์ํํ ์ ์๋ ๋ค๊ตญ์ด ๋ฒ์ญ ๋ชจ๋ธ์
๋๋ค. ์ด ๋ชจ๋ธ์ ๊ทธ ์ค์์๋ ํนํ ํ๊ตญ ๊ด๊ด ๋ถ์ผ์ ์ฉ์ด์ ๋ฌธ์ฒด์ ๋ํ ์ดํด๋๋ฅผ ๋์ด๊ธฐ ์ํด, ๊ด๋ จ ๋ฐ์ดํฐ์
์ผ๋ก ์ถ๊ฐ ํ์ต์ ์งํํ์ต๋๋ค.
|
|
|
|
|
|
|
| 36 |
|
| 37 |
ONNX ๋ณํ์ ํตํด ๊ธฐ์กด PyTorch ๋ชจ๋ธ๋ณด๋ค ๊ฐ๋ณ๊ณ ๋น ๋ฅด๊ฒ ์๋ํ๋ฏ๋ก, FastAPI ๋ฑ์ ์ด์ฉํ API ์๋ฒ ๋ฐฐํฌ์ ๋งค์ฐ ์ ํฉํฉ๋๋ค.
|
| 38 |
|
|
@@ -83,24 +87,44 @@ result_zh = translator(
|
|
| 83 |
)
|
| 84 |
print(f"Korean to Chinese: {result_zh[0]['translation_text']}")
|
| 85 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 86 |
# --- ์ถ๋ ฅ ๊ฒฐ๊ณผ ์์ ---
|
| 87 |
# Korean to Japanese: ๆฏ็ฆๅฎฎใฎๅค้้ๅ ดๅ
ฅๅ ดๅธใฏใฉใใง่ณผๅ
ฅใงใใพใใใ
|
| 88 |
# Korean to Chinese: ๆฏ็ฆๅฎซๅค้ดๅผๆพ้จ็ฅจๅจๅช้่ดญไนฐ?
|
|
|
|
|
|
|
| 89 |
```
|
| 90 |
|
| 91 |
## Model Details
|
| 92 |
|
| 93 |
### Fine-tuning
|
| 94 |
-
|
| 95 |
-
- **
|
| 96 |
-
- **
|
| 97 |
-
- **Objective:** ์ผ๋ฐ์ ์ธ ๋ฒ์ญ ๋ชจ๋ธ์ด ์ด์ํ๊ฒ ๋ฒ์ญํ ์ ์๋ ๊ณ ์ ๋ช
์ฌ๋ ํน์ ์ํฉ(ํฐ์ผ ์๋งค, ๊ธธ ์ฐพ๊ธฐ ๋ฑ)์ ๋ํ ๋ฒ์ญ ํ์ง์ ๋์ด๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ต๋๋ค.
|
| 98 |
|
| 99 |
### ONNX Conversion
|
| 100 |
-
|
| 101 |
-
- **
|
| 102 |
-
- **Compatibility:** ONNX Runtime์ ๋ค์ํ ํ๋์จ์ด ๋ฐ ํ๋ซํผ์ ์ง์ํ์ฌ ๋ชจ๋ธ ๋ฐฐํฌ์ ์ ์ฐ์ฑ์ ๋์ฌ์ค๋๋ค.
|
| 103 |
|
| 104 |
## Deployment
|
| 105 |
|
| 106 |
์ด ONNX ๋ชจ๋ธ์ FastAPI์ Docker๋ฅผ ์ฌ์ฉํ์ฌ API ์๋ฒ๋ก ์ฝ๊ฒ ๋ฐฐํฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์์ธํ ๋ฐฐํฌ ๋ฐฉ๋ฒ์ ๊ด๋ จ ํ๋ก์ ํธ์ `Dockerfile`๊ณผ `app.py`๋ฅผ ์ฐธ๊ณ ํ์ธ์.
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
language:
|
| 3 |
+
- ko
|
| 4 |
+
- ja
|
| 5 |
+
- zh
|
| 6 |
+
- en
|
| 7 |
license: apache-2.0
|
| 8 |
library_name: optimum
|
| 9 |
tags:
|
| 10 |
+
- translation
|
| 11 |
+
- m2m100
|
| 12 |
+
- korean
|
| 13 |
+
- japanese
|
| 14 |
+
- chinese
|
| 15 |
+
- english
|
| 16 |
+
- k-tourism
|
| 17 |
+
- onnx
|
| 18 |
pipeline_tag: translation
|
| 19 |
base_model: facebook/m2m100_1.2B
|
| 20 |
datasets:
|
| 21 |
+
- custom-k-tourism-corpus
|
| 22 |
---
|
| 23 |
|
| 24 |
# M2M100 Korean Tourism Translator (ONNX)
|
| 25 |
|
| 26 |
+
์ด ๋ชจ๋ธ์ `facebook/m2m100_1.2B` ๋ชจ๋ธ์ ํ๊ตญ ๊ด๊ด ๊ด๋ จ ๋ฐ์ดํฐ๋ก ํ์ธํ๋(Fine-tuning)ํ ํ, ์ถ๋ก ์๋ ํฅ์์ ์ํด ONNX (Open Neural Network Exchange) ํ์์ผ๋ก ๋ณํํ ๋ฒ์ญ ๋ชจ๋ธ์
๋๋ค.
|
| 27 |
|
| 28 |
+
์ฃผ์ ๊ธฐ๋ฅ์ ํ๊ตญ์ด(ko)์ ์์ด(en), ์ผ๋ณธ์ด(ja), ์ค๊ตญ์ด(zh) ๊ฐ์ ์๋ฐฉํฅ ๋ฒ์ญ์ ์ํํ๋ ๊ฒ์
๋๋ค.
|
| 29 |
|
| 30 |
+
- **Base Model**: `facebook/m2m100_1.2B`
|
| 31 |
+
- **Specialization**: Korean Tourism Domain (ํ๊ตญ ๊ด๊ด ํนํ)
|
| 32 |
+
- **Target Languages**: English (en), Japanese (ja), Chinese (zh)
|
| 33 |
+
- **Format**: ONNX (Optimized for fast CPU/GPU inference)
|
| 34 |
|
| 35 |
## Model Description
|
| 36 |
|
| 37 |
+
M2M100์ ๋ณ๋์ ์ธ์ด ์ง์ ์์ด 100๊ฐ ์ธ์ด ๊ฐ์ ๋ฒ์ญ์ ์ํํ ์ ์๋ ๋ค๊ตญ์ด ๋ฒ์ญ ๋ชจ๋ธ์
๋๋ค. ์ด ๋ชจ๋ธ์ ๊ทธ ์ค์์๋ ํนํ ํ๊ตญ ๊ด๊ด ๋ถ์ผ์ ์ฉ์ด์ ๋ฌธ์ฒด์ ๋ํ ์ดํด๋๋ฅผ ๋์ด๊ธฐ ์ํด, ๊ด๋ จ ๋ฐ์ดํฐ์
์ผ๋ก ์ถ๊ฐ ํ์ต์ ์งํํ์ต๋๋ค.
|
| 38 |
+
|
| 39 |
+
ํนํ, ํ๊ตญ์ ํน์ ์ง๋ช
(์: ๊ฒฝ๋ณต๊ถ, ๋ช
๋)์ด๋ ์์ ์ด๋ฆ(์: ๋น๋น๋ฐฅ, ๋ก๋ณถ์ด) ๋ฑ ๊ณ ์ ๋ช
์ฌ์ ๋ํ 3๊ฐ ์ธ์ด(์์ด, ์ผ๋ณธ์ด, ์ค๊ตญ์ด) ๋ฒ์ญ ์ ํ๋๋ฅผ ๋์ด๋ ๋ฐ ์ค์ ์ ๋์์ต๋๋ค.
|
| 40 |
|
| 41 |
ONNX ๋ณํ์ ํตํด ๊ธฐ์กด PyTorch ๋ชจ๋ธ๋ณด๋ค ๊ฐ๋ณ๊ณ ๋น ๋ฅด๊ฒ ์๋ํ๋ฏ๋ก, FastAPI ๋ฑ์ ์ด์ฉํ API ์๋ฒ ๋ฐฐํฌ์ ๋งค์ฐ ์ ํฉํฉ๋๋ค.
|
| 42 |
|
|
|
|
| 87 |
)
|
| 88 |
print(f"Korean to Chinese: {result_zh[0]['translation_text']}")
|
| 89 |
|
| 90 |
+
# ํ๊ตญ์ด -> ์์ด ๋ฒ์ญ
|
| 91 |
+
result_en = translator(
|
| 92 |
+
korean_text,
|
| 93 |
+
src_lang="ko",
|
| 94 |
+
tgt_lang="en"
|
| 95 |
+
)
|
| 96 |
+
print(f"Korean to English: {result_en[0]['translation_text']}")
|
| 97 |
+
|
| 98 |
+
# ์ผ๋ณธ์ด -> ํ๊ตญ์ด ๋ฒ์ญ
|
| 99 |
+
japanese_text = "ๆฏ็ฆๅฎฎใฎๅค้้ๅ ดๅ
ฅๅ ดๅธใฏใฉใใง่ณผๅ
ฅใงใใพใใใ"
|
| 100 |
+
result_ko_from_ja = translator(
|
| 101 |
+
japanese_text,
|
| 102 |
+
src_lang="ja",
|
| 103 |
+
tgt_lang="ko"
|
| 104 |
+
)
|
| 105 |
+
print(f"Japanese to Korean: {result_ko_from_ja[0]['translation_text']}")
|
| 106 |
+
|
| 107 |
# --- ์ถ๋ ฅ ๊ฒฐ๊ณผ ์์ ---
|
| 108 |
# Korean to Japanese: ๆฏ็ฆๅฎฎใฎๅค้้ๅ ดๅ
ฅๅ ดๅธใฏใฉใใง่ณผๅ
ฅใงใใพใใใ
|
| 109 |
# Korean to Chinese: ๆฏ็ฆๅฎซๅค้ดๅผๆพ้จ็ฅจๅจๅช้่ดญไนฐ?
|
| 110 |
+
# Korean to English: Where can I buy tickets for the Gyeongbok Palace night opening?
|
| 111 |
+
# Japanese to Korean: ๊ฒฝ๋ณต๊ถ ์ผ๊ฐ ๊ฐ์ฅ ์
์ฅ๊ถ์ ์ด๋์์ ๊ตฌ์
ํฉ๋๊น?
|
| 112 |
```
|
| 113 |
|
| 114 |
## Model Details
|
| 115 |
|
| 116 |
### Fine-tuning
|
| 117 |
+
- **Base Model**: `facebook/m2m100_1.2B`
|
| 118 |
+
- **Training Data**: ์์ฒด์ ์ผ๋ก ์์ง ๋ฐ ์ ์ ํ ํ๊ตญ ๊ด๊ด ๊ด๋ จ ๋ฌธ์ฅ ์ ๋ฐ์ดํฐ์
(K-Tourism Corpus)์ผ๋ก ํ์ธํ๋์ ์งํํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์
์๋ ๊ด๊ด์ง ์ ๋ณด, ์์, ํ์ฌ ๋ฑ ๋ค์ํ ์นดํ
๊ณ ๋ฆฌ์ ๋ด์ฉ์ด ํฌํจ๋์ด ์์ต๋๋ค.
|
| 119 |
+
- **Objective**: ์ผ๋ฐ์ ์ธ ๋ฒ์ญ ๋ชจ๋ธ์ด ์ด์ํ๊ฒ ๋ฒ์ญํ ์ ์๋ ํ๊ตญ ๊ด๊ด ๊ด๋ จ ๊ณ ์ ๋ช
์ฌ(์ง๋ช
, ์์ ์ด๋ฆ ๋ฑ)์ ๋ํ 3๊ฐ ์ธ์ด ๋ฒ์ญ ํ์ง์ ๋์ด๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ต๋๋ค.
|
|
|
|
| 120 |
|
| 121 |
### ONNX Conversion
|
| 122 |
+
- **Performance**: PyTorch ๋ชจ๋ธ์ ONNX๋ก ๋ณํํ์ฌ ์์ํ(quantization) ๋ฐ ์ต์ ํ๋ฅผ ๊ฑฐ์ณค์ต๋๋ค. ์ด๋ฅผ ํตํด CPU ํ๊ฒฝ์์๋ ๋ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ด๋ ์ค์๊ฐ ๋ฒ์ญ API ์๋น์ค์ ํฐ ์ด์ ์
๋๋ค.
|
| 123 |
+
- **Compatibility**: ONNX Runtime์ ๋ค์ํ ํ๋์จ์ด ๋ฐ ํ๋ซํผ์ ์ง์ํ์ฌ ๋ชจ๋ธ ๋ฐฐํฌ์ ์ ์ฐ์ฑ์ ๋์ฌ์ค๋๋ค.
|
|
|
|
| 124 |
|
| 125 |
## Deployment
|
| 126 |
|
| 127 |
์ด ONNX ๋ชจ๋ธ์ FastAPI์ Docker๋ฅผ ์ฌ์ฉํ์ฌ API ์๋ฒ๋ก ์ฝ๊ฒ ๋ฐฐํฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์์ธํ ๋ฐฐํฌ ๋ฐฉ๋ฒ์ ๊ด๋ จ ํ๋ก์ ํธ์ `Dockerfile`๊ณผ `app.py`๋ฅผ ์ฐธ๊ณ ํ์ธ์.
|
| 128 |
+
|
| 129 |
+
### Docker Hub Image
|
| 130 |
+
- **[Repository](https://hub.docker.com/repository/docker/pokqok/m2m100-k-tourism-ko-ja-zh-onnx/general)**:
|