Описание задания

  • были обучены Byte-level BPE токенизатор и небольшая LM, у которой:
    1. В качестве позиционных эмбеддингов используется ALiBi
    2. Механизм внимания использует GQA
    3. В Feed-Forward блоке SwiGLU
  • в качестве датасета использовался датасет с русскими анекдотами 🤗 IgorVolochay/russian_jokes

Примеры генерации

text = "Заходит в бар"
generated: "Заходит в бар. Бармен ему: — Стой! Бармен, вы что, не даете? — Да. Спрашивает бармен:- Нет, я не боюсь."
text = "Штирлиц пришел домой"
generated: "Штирлиц пришел домой, а потом побежал в публичный дом."

Метрики

  • модель обучалась 20000 шагов с конфигурацией
"small": TransformerConfig(n_layer=12, n_head=12, n_kv_head=6, hidden_dim=768, intermediate_dim=2048)
Loss min max
train 2.356 7.069
validation 2.595 4.138

image/png

Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support