new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jul 8

Submitted by

taesiri

AlayaWorld: Long-Horizon and Playable Video World Generation

·
17 authors

Submitted by

taesiri

RynnWorld-4D: 4D Embodied World Models for Robotic Manipulation

·
6 authors

Submitted by

taesiri

RynnWorld-Teleop: An Action-Conditioned World Model for Digital Teleoperation

·
9 authors

Submitted by

rayleizhu

Hierarchical Sparse Attention Done Right: Toward Infinite Context Modeling

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

shixuanke

Vision as Unified Multimodal Generation

sensenova

Submitted by

osanseviero

Gemma 4 Technical Report

google

Submitted by

taesiri

DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation

deepseek-ai

Submitted by

ClareNie

Light-Omni: Reflex over Reasoning in Agentic Video Understanding with Long-Term Memory

nanjinguniv

Nanjing University

Submitted by

yshenaw

SkillOpt-Lite: Better and Faster Agent Self-evolution via One Line of Vibe

lmms-lab

Submitted by

wenzhengzeng

Parallelized Autoregressive Decoding for Omni-Modal Dense Video Captioning

NationalUniversityofSingapore

National University of Singapore

Submitted by

kimyuji

LLM-as-a-Tutor: Policy-Aware Prompt Adaptation for Non-Verifiable RL

kaist-ai

Submitted by

Weiww99

From Foundation to Application: Improving VLA Models in Practice

robbyant

Submitted by

tangmen

TurnOPD: Making On-Policy Distillation Turn-Aware for Efficient Long-Horizon Agent Training

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

Kangheng

MentalThink: Shaping Thoughts in Mental SVG World

·
14 authors

Submitted by

cswhjiang

CanvasAgent: Enabling Complex Image Creation and Editing via Visual Tool Orchestration

·
8 authors

Submitted by

jberner

Flex-Forcing: Towards a Unified Autoregressive and Bidirectional Video Diffusion Model

nvidia

Submitted by

taesiri

Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding

nvidia

Submitted by

xuyd16

TREK: Distill to Explore, Reinforce to Refine

·
13 authors

Submitted by

Austin-Sun

CGGS: Consistency-Augmented Geometric Gaussian Splatting for Ego-centric 3D Scene Generation

·
4 authors

Submitted by

haofeixu

PointDiT: Pixel-Space Diffusion for Monocular Geometry Estimation

google

Submitted by

jfkback

Quantifying and Expanding the Theoretical Capacity of Late-Interaction Retrieval Models

umass

University of Massachusetts Amherst

Submitted by

dardem

PluraMath: Extending Mathematical Reasoning Evaluation Beyond High-Resource Languages

tum-nlp

Natural Language Processing @ TUM

Submitted by

GeorgeBredis

Rank-Then-Act: Reward-Free Control from Frame-Order Progress

t-tech

Submitted by

guptavarun

Attending to Multimodal Generation One Token at a Time

katha-ai-iiith

Katha AI Lab @ IIIT Hyderabad

Submitted by

Yushi98

When Classic Cache Policies Fail: Learning-Augmented Replacement for Semantic Retrieval Buffers

tencent

Submitted by

godnpeter

3D HAMSTER: Bridging Planning and Control in Hierarchical Vision Language Action Models through 3D Trajectory Guidance

kaist-ai

Submitted by

ruoyu001

SWE-Review: Closing the Loop on Issue Resolution with Agentic Code Review

SWE-Lego

Submitted by

nielsr

HunyuanOCR-1.5: Making Lightweight OCR VLMs Faster and Better

tencent

Submitted by

Mingyi-Hong

Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training

·
7 authors

Submitted by

jaehong31

MuseBench: Benchmarking Intent-Level Audiovisual Arts Understanding in MLLMs

nanyang-technological-university-singapore

Nanyang Technological University Singapore

Submitted by

MaplesWCT

SIEVE: Structure-Aware Data Selection for Imitation Learning with VLA Models

ZGCA

Zhongguancun Academy

Submitted by

hheiden

Where to cut, how deep: BPE and Unigram-LM on chemistry SMILES

·
1 authors

Submitted by

comar

SceneFrom3D: Geometry-Conditioned Outdoor 3D Scene Generation via View Scheduling with Object-Level Control

postech-cglab

POSTECH Computer Graphics Lab

Submitted by

anishapat

Layer-wise Cross-Lingual Depression Detection from Speech: Analysis with Contrastive Alignment

·
5 authors

Submitted by

Allen03

JD Oxygen AI Item Center (Oxygen AIIC) V1: An Industrial-Scale LLM/VLM-Centric Solution for Item Understanding, Management, and Applications

·
55 authors

1

Submitted by

BibbyResearch

Bibby AI: An Editor-Native Agentic Platform for Academic Research, Writing, and Publishing

Bibby-Research

Bibby Research Labs

Submitted by

adaamko

RuleChef: Grounding LLM Task Knowledge in Human-Editable Rules

KRLabsOrg

Submitted by

quandao10

Cross-Space Distillation: Teaching One-Step Students with Modern Diffusion Teachers

·
14 authors

Submitted by

onandon

Image2Sim: Scaling Embodied Navigation via Generative Neural Simulator

NationalUniversityofSingapore

National University of Singapore

Submitted by

nielsr

SiamJEPA: On the Role of Siamese Student Encoders in JEPA

·
1 authors

Submitted by

dlion168

VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech

·
4 authors