rcnegby commited on
Commit
a6051a8
·
verified ·
1 Parent(s): a59f97f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +26 -0
README.md CHANGED
@@ -2,6 +2,7 @@
2
  tags:
3
  - model_hub_mixin
4
  - pytorch_model_hub_mixin
 
5
  ---
6
 
7
  ## Описание задания
@@ -10,3 +11,28 @@ tags:
10
  2. Механизм внимания использует GQA
11
  3. В Feed-Forward блоке SwiGLU
12
  - в качестве датасета использовался датасет с русскими анекдотами [🤗 IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  tags:
3
  - model_hub_mixin
4
  - pytorch_model_hub_mixin
5
+ - Russian
6
  ---
7
 
8
  ## Описание задания
 
11
  2. Механизм внимания использует GQA
12
  3. В Feed-Forward блоке SwiGLU
13
  - в качестве датасета использовался датасет с русскими анекдотами [🤗 IgorVolochay/russian_jokes](https://huggingface.co/datasets/IgorVolochay/russian_jokes)
14
+
15
+ ## Примеры генерации
16
+
17
+ ```
18
+ text = "Заходит в бар"
19
+ generated: "Заходит в бар. Бармен ему: — Стой! Бармен, вы что, не даете? — Да. Спрашивает бармен:- Нет, я не боюсь."
20
+ ```
21
+
22
+ ```
23
+ text = "Штирлиц пришел домой"
24
+ generated: "Штирлиц пришел домой, а потом побежал в публичный дом."
25
+ ```
26
+
27
+ ## Метрики
28
+ - модель обучалась 20000 шагов с конфигурацией
29
+ ```python
30
+ "small": TransformerConfig(n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048)
31
+ ```
32
+
33
+ | Loss | min | max |
34
+ |-----------:|:-----:|:-----:|
35
+ | train | 2.356 | 7.069 |
36
+ | validation | 2.595 | 4.138 |
37
+
38
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/67c588f5fef75fc8e22b1201/2Uebn0nA4o2U_ORxt4yvX.png)