justinj92
/

gpt-oss-20B-pacmanplayer

Reinforcement Learning

text-generation

code-generation

Model card Files Files and versions

Ms. Pac-Man GRPO-trained Strategy Generator

This model was trained using Group Relative Policy Optimization (GRPO) to generate Python strategies for playing Atari Ms. Pac-Man.

Downloads last month: 33

Safetensors

Model size

21B params

Tensor type

BF16

·

Video Preview

Reinforcement Learning

loading

Model tree for justinj92/gpt-oss-20B-pacmanplayer

Base model

openai/gpt-oss-20b

Finetuned

unsloth/gpt-oss-20b-BF16

Finetuned

(14)

this model