Ma Zixian's picture

1

Ma Zixian

IDoNotHaveAName

·

AI & ML interests

None yet

Organizations

None yet

IDoNotHaveAName 's models 16

IDoNotHaveAName/weighted-grpo

Updated Feb 16 • 3

IDoNotHaveAName/baseline215

Updated Feb 16 • 8

IDoNotHaveAName/aug_model

Updated Feb 16 • 3

IDoNotHaveAName/Hint-informed-env

Updated Aug 28, 2025

IDoNotHaveAName/GRPO-800-reproduction

Updated Aug 28, 2025 • 2

IDoNotHaveAName/PRM-GRPO-800-1.5B

Updated Aug 28, 2025 • 2

IDoNotHaveAName/Hint-Informed-grpo

2B • Updated Aug 28, 2025 • 3

IDoNotHaveAName/reproduce-grpo-1.5B

Updated Aug 8, 2025

IDoNotHaveAName/model-trainby-mistake

Text Generation • 2B • Updated Jul 21, 2025 • 3

IDoNotHaveAName/2epoch-experiment

Text Generation • 2B • Updated Jul 19, 2025 • 4

IDoNotHaveAName/X-R1-3epoch

Text Generation • 2B • Updated Jul 18, 2025 • 3

IDoNotHaveAName/GRPO-1epoch-train-by-mistake-collections-without-hint

Text Generation • 2B • Updated Jul 18, 2025 • 4

IDoNotHaveAName/GRPO-1epoch-train-by-mistake-collections-with-hint

Text Generation • 2B • Updated Jul 17, 2025 • 1

IDoNotHaveAName/GRPO-qwen2.5-1.5B-reward-process

Text Generation • 2B • Updated Jul 15, 2025 • 2

IDoNotHaveAName/origin_grpo_train_1_epoch

Text Generation • 2B • Updated Jul 10, 2025 • 5

IDoNotHaveAName/GRPO_tokens_repeat_model

Text Generation • 2B • Updated Jul 1, 2025 • 1