TinyLlama 1.1B Mixed (20k steps)
⚠️ Важно: это ранний чекпоинт после ~0.17 эпохи (20 000 шагов) обучения. Модель экспериментальная, предназначена для тестов и исследования, а не для продакшена.
Краткое описание
Эта модель — дообученная версия TinyLlama/TinyLlama-1.1B-Chat-v1.0 c помощью QLoRA на смешанном инструкционном датасете (chat, code, немного RU‑QA).
Основной фокус — англоязычные запросы: general‑purpose чат, программирование с chain‑of‑thought.
Особенности:
- 1.1B параметров, архитектура LLaMA‑типа.
- Обучение с QLoRA (4‑bit NF4) и последующим merge в полную HF‑модель.
- Всего 20k gradient steps (~0.17 эпохи по собранному датасету).
- Оптимизирована под локальный запуск и дальнейшие эксперименты с fine‑tuning/QLoRA.
Как начать использовать
Через transformers
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "wexyyyyyy/tinyllama-1.1b-rus-mix-merged"
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Explain QLoRA in simple terms."},
]
prompt = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=256,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.9,
pad_token_id=tokenizer.pad_token_id,
)
print(tokenizer.decode(outputs, skip_special_tokens=True))
Пример промпта в интерактивном режиме:
You are a helpful AI assistant. Give me 3 ideas for small AI side projects. Конкретный формат промпта зависит от оболочки; по умолчанию можно придерживаться того же chat‑template, что у TinyLlama‑1.1B‑Chat‑v1.0.
- Downloads last month
- 1