Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.15115

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B.

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen/Qwen2.5-0.5B

Text Generation • 0.5B • Updated Sep 25, 2024 • 757k • 322
Qwen/Qwen2.5-0.5B-Instruct

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.53M • 382
Qwen/Qwen2.5-1.5B

Text Generation • 2B • Updated Oct 8, 2024 • 544k • • 135

text-generation

KurniaKadir/hrmy

Text Generation • Updated Aug 14
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper • 2504.01990 • Published Mar 31 • 300

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 625
meta-llama/Llama-4-Scout-17B-16E-Instruct

Image-Text-to-Text • 109B • Updated May 22 • 189k • • 1.13k
keras-io/GauGAN-Image-generation

Updated Jul 5, 2024 • 10 • 4

Wan-AI/Wan2.1-I2V-14B-720P

Image-to-Video • Updated Feb 26 • 18.4k • • 543
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Reverse-Engineered Reasoning for Open-Ended Generation

Paper • 2509.06160 • Published Sep 7 • 147
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 37
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26 • 71
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 150

A very long nameA very long nameA very long nameA very long

A very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very

nvidia/OpenMathReasoning

Viewer • Updated May 27 • 5.68M • 5.47k • 345
zwhe99/DeepMath-103K

Viewer • Updated May 29 • 103k • 6.81k • 249
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated May 1 • 11.3k • 1.21k
Running

789

789

Qwen3 Demo

📊

Generate responses to text prompts in a chat interface

wisdom of the ancient

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14 • 298
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 420
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 257

Visual-RFT: Visual Reinforcement Fine-Tuning

Paper • 2503.01785 • Published Mar 3 • 84
When an LLM is apprehensive about its answers -- and when its uncertainty is justified

Paper • 2503.01688 • Published Mar 3 • 21
Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Paper • 2503.00808 • Published Mar 2 • 56
Chain of Draft: Thinking Faster by Writing Less

Paper • 2502.18600 • Published Feb 25 • 49

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B.

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen/Qwen2.5-0.5B

Text Generation • 0.5B • Updated Sep 25, 2024 • 757k • 322
Qwen/Qwen2.5-0.5B-Instruct

Text Generation • 0.5B • Updated Sep 25, 2024 • 1.53M • 382
Qwen/Qwen2.5-1.5B

Text Generation • 2B • Updated Oct 8, 2024 • 544k • • 135

Reverse-Engineered Reasoning for Open-Ended Generation

Paper • 2509.06160 • Published Sep 7 • 147
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

text-generation

KurniaKadir/hrmy

Text Generation • Updated Aug 14
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Paper • 2504.01990 • Published Mar 31 • 300

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 37
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26 • 71
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 150

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

A very long nameA very long nameA very long nameA very long

A very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very long nameA very

nvidia/OpenMathReasoning

Viewer • Updated May 27 • 5.68M • 5.47k • 345
zwhe99/DeepMath-103K

Viewer • Updated May 29 • 103k • 6.81k • 249
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated May 1 • 11.3k • 1.21k
Running

789

789

Qwen3 Demo

📊

Generate responses to text prompts in a chat interface

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 625
meta-llama/Llama-4-Scout-17B-16E-Instruct

Image-Text-to-Text • 109B • Updated May 22 • 189k • • 1.13k
keras-io/GauGAN-Image-generation

Updated Jul 5, 2024 • 10 • 4

wisdom of the ancient

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14 • 298
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 420
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 257

Wan-AI/Wan2.1-I2V-14B-720P

Image-to-Video • Updated Feb 26 • 18.4k • • 543
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Visual-RFT: Visual Reinforcement Fine-Tuning

Paper • 2503.01785 • Published Mar 3 • 84
When an LLM is apprehensive about its answers -- and when its uncertainty is justified

Paper • 2503.01688 • Published Mar 3 • 21
Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Paper • 2503.00808 • Published Mar 2 • 56
Chain of Draft: Thinking Faster by Writing Less

Paper • 2502.18600 • Published Feb 25 • 49

Previous
1
2
3
...
7
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs