Luckeciano Carvalho Melo's picture

2 1

Luckeciano Carvalho Melo

luckeciano

·

https://luckeciano.github.io

AI & ML interests

Reinforcement Learning

Recent Activity

updated a model 29 days ago

luckeciano/Qwen-2.5-0.5B-Instruct-AC-RL_3872

updated a model about 1 month ago

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.01-v2_5923

updated a model about 1 month ago

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.01-v2_3862

View all activity

Organizations

Papers 1

arxiv:2206.06614

models 1,013

luckeciano/Qwen-2.5-0.5B-Instruct-AC-RL_3872

0.6B • Updated 29 days ago • 6

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.01-v2_5923

Text Generation • 8B • Updated Sep 24 • 5

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.01-v2_3862

Text Generation • 8B • Updated Sep 24 • 9

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.1-v2_2039

Text Generation • 8B • Updated Sep 24 • 5

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.1-v2_7618

Text Generation • 8B • Updated Sep 24 • 2

luckeciano/Qwen-2.5-7B-Simple-RL-v2_6531

Text Generation • 8B • Updated Sep 24 • 1

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.01-v2_2840

Text Generation • 8B • Updated Sep 24 • 3

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.1-v2_8157

Text Generation • 8B • Updated Sep 24 • 3

luckeciano/Qwen-2.5-7B-Simple-RL-v2_1343

Text Generation • 8B • Updated Sep 24 • 7

luckeciano/Qwen-2.5-7B-GRPO-NoBaseline-Adam-FisherMaskToken-1e-5-HessianMaskToken-0.01-v2_4270

Text Generation • 8B • Updated Sep 24 • 3

View 1,013 models

datasets 19

luckeciano/pku-llama3.1-8b-dataset-test-generations

Viewer • Updated Jan 31 • 4.7M • 3

luckeciano/pku-llama3.1-8b-dataset-train-generations

Viewer • Updated Jan 31 • 1.36M • 11

luckeciano/pku-alpaca3.1-8b-eval-gt-rewards

Viewer • Updated Sep 20, 2024 • 4.7k • 3

luckeciano/pku-alpaca3.1-8b-gt-rewards

Viewer • Updated Sep 10, 2024 • 6.05M • 5

luckeciano/pku-llama3.1-8b-answers-features-test

Viewer • Updated Sep 8, 2024 • 4.42M • 4

luckeciano/pku-llama3.1-8b-answers-features-train

Viewer • Updated Sep 6, 2024 • 1.28M • 275

luckeciano/pku-llama3.1-8b-dataset-features-gt-reward-modeling

Updated Sep 4, 2024 • 30

luckeciano/pku-llama3.1-8b-dataset-features

Viewer • Updated Sep 3, 2024 • 18.3k • 9

luckeciano/PKU-SafeRLHF-Shifts

Viewer • Updated Aug 26, 2024 • 18.3k • 7

luckeciano/mistral8x22b-reddit-post-features

Viewer • Updated May 10, 2024 • 92.9k • 56

View 19 datasets