38 30 6

yubo

ubowang

AI & ML interests

None yet

Recent Activity

new activity 2 days ago

TIGER-Lab/MMLU-Pro:Set evaluation_framework to inspect-ai in eval.yaml

upvoted a paper 3 days ago

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

upvoted a paper 3 days ago

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

View all activity

Organizations

New activity in TIGER-Lab/MMLU-Pro 2 days ago

Set evaluation_framework to inspect-ai in eval.yaml

👍 2

#44 opened 2 months ago by

burtenshaw

upvoted 2 papers 3 days ago

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Paper • 2604.24763 • Published 8 days ago • 68

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Paper • 2604.28185 • Published 5 days ago • 82

updated a dataset 8 days ago

ubowang/fim_midtrain_sample_data

Preview • Updated 8 days ago • 51

published a dataset 8 days ago

ubowang/fim_midtrain_sample_data

Preview • Updated 8 days ago • 51

updated a dataset 14 days ago

ubowang/fim_midtrain_ping_bk

Updated 14 days ago • 47

published a dataset 14 days ago

ubowang/fim_midtrain_ping_bk

Updated 14 days ago • 47

upvoted a paper 18 days ago

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Paper • 2604.11626 • Published 22 days ago • 101

upvoted a paper 21 days ago

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Paper • 2604.07413 • Published 27 days ago • 95

updated a dataset 23 days ago

ubowang/claw-analysis-data

Updated 23 days ago • 51

published a dataset 23 days ago

ubowang/claw-analysis-data

Updated 23 days ago • 51

upvoted a paper 24 days ago

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Paper • 2604.08523 • Published 26 days ago • 261

upvoted 2 papers 26 days ago

Watch Before You Answer: Learning from Visually Grounded Post-Training

Paper • 2604.05117 • Published 29 days ago • 35

SWE-Next: Scalable Real-World Software Engineering Tasks for Agents

Paper • 2603.20691 • Published Mar 21 • 10

New activity in TIGER-Lab/MMLU-Pro about 1 month ago

how to download responses of specific models

#45 opened about 2 months ago by

Roman1111111

upvoted a paper about 1 month ago

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Paper • 2603.20278 • Published Mar 17 • 96

updated a dataset about 2 months ago

ubowang/fim_midtrain_data_multi_function_v3_filtered

Preview • Updated Mar 17 • 21

published a dataset about 2 months ago