Описание задания
- были обучены Byte-level BPE токенизатор и небольшая LM, у которой:
- В качестве позиционных эмбеддингов используется ALiBi
- Механизм внимания использует GQA
- В Feed-Forward блоке SwiGLU
- в качестве датасета использовался датасет с русскими анекдотами 🤗 IgorVolochay/russian_jokes
Примеры генерации
text = "Заходит в бар"
generated: "Заходит в бар. Бармен ему: — Стой! Бармен, вы что, не даете? — Да. Спрашивает бармен:- Нет, я не боюсь."
text = "Штирлиц пришел домой"
generated: "Штирлиц пришел домой, а потом побежал в публичный дом."
Метрики
- модель обучалась 20000 шагов с конфигурацией
"small": TransformerConfig(n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048)
| Loss | min | max |
|---|---|---|
| train | 2.356 | 7.069 |
| validation | 2.595 | 4.138 |
- Downloads last month
- 3
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
