Reinforce-Ada - a RLHFlow Collection

RLHFlow 's Collections

Decision-Tree Reward Models

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

Reinforce-Ada

updated 5 days ago

Training & test sets and finetuned models

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Paper • 2510.04996 • Published 25 days ago • 15
weqweasdas/math500

Viewer • Updated Mar 19 • 500 • 92
weqweasdas/aime_hmmt_brumo_cmimc_amc23

Viewer • Updated Sep 7 • 230 • 67
weqweasdas/olympiadbench

Viewer • Updated Mar 19 • 675 • 94
weqweasdas/minerva_math

Viewer • Updated Mar 19 • 272 • 85
weqweasdas/from_default_filtered_openr1

Viewer • Updated Sep 12 • 75k • 90

Note Prompt set used for data processing
RLHFlow/reinforce_ada_hard_prompt

Viewer • Updated 21 days ago • 15.7k • 111

Note Selected hard prompts used to train Qwen2.5-Math-7B and Qwen3-4B-Instruct-2507
RLHFlow/reinforce_ada_easy_prompt

Viewer • Updated 21 days ago • 24.3k • 32

Note Selected easy prompts used to train Qwen2.5-Math-7B
RLHFlow/reinforce_ada_hard_prompt_llama

Viewer • Updated 21 days ago • 15k • 25

Note Selected hard prompts used to train Llama-3.2-3B-Instruct
RLHFlow/Llama-3.2-3B-Instruct-Reinforce-Ada-balance-hard

4B • Updated 21 days ago • 10

Note Checkpoint from step=400 and trained on the hard prompt set
RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-hard

8B • Updated 21 days ago • 13

Note Checkpoint from step=400 and trained on the hard prompt set.
RLHFlow/Qwen3-4B-Instruct-2507-Reinforce-Ada-balance-hard

4B • Updated 21 days ago • 14

Note Checkpoint from step=400 and trained on the hard prompt set.
RLHFlow/Qwen2.5-Math-7B-Reinforce-Ada-balance-easy

8B • Updated 21 days ago • 15

Note Checkpoint from step=500 and trained on the easy prompt set.
RLHFlow/reinforce_ada_simple_prompt_1-5b

Viewer • Updated 15 days ago • 25k • 42

Note Selected easy prompts used to train Qwen2.5-Math-1.5B
RLHFlow/reinforce_ada_hard_prompt_1-5b

Viewer • Updated 15 days ago • 13.3k • 27

Note Selected hard prompts used to train Qwen2.5-Math-1.5B
RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-easy

2B • Updated 20 days ago • 16
RLHFlow/Qwen2.5-Math-1-5B-Reinforce-Ada-balance-hard

Updated 16 days ago • 9
RLHFlow/Qwen2.5-Math-1.5B-DAPO-easy

2B • Updated 5 days ago • 37
RLHFlow/Qwen2.5-Math-1.5B-GRPO-n8-easy

2B • Updated 5 days ago • 25