yi wei's picture

3

yi wei

yxxi

AI & ML interests

None yet

Recent Activity

upvoted a paper about 2 months ago

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

upvoted a paper 4 months ago

Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

upvoted a paper 9 months ago

AdaptThink: Reasoning Models Can Learn When to Think

View all activity

Organizations

None yet

yxxi 's datasets

None public yet