Zhanming (Allan) Jie's picture

Zhanming (Allan) Jie

allanjie

·

https://allanj.github.io/

AI & ML interests

NLP, semantic parsing, named entity recognition

Recent Activity

upvoted a paper about 1 month ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

authored a paper about 2 months ago

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

upvoted a paper about 2 months ago

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

View all activity

Organizations

Papers 11

arxiv:2512.17260

arxiv:2507.23726

arxiv:2407.21018

arxiv:2401.08967

models 11

allanjie/agent_reft_warmup_ep5

Text Generation • 7B • Updated Jul 23, 2024

allanjie/agent_reft_warmup_ep4

Text Generation • 7B • Updated Jul 23, 2024

allanjie/agent_reft_warmup_ep3

Text Generation • 7B • Updated Jul 23, 2024

allanjie/agent_reft_warmup_ep2

Text Generation • 7B • Updated Jul 23, 2024

allanjie/agent_reft_warmup_ep1

Text Generation • 7B • Updated Jul 23, 2024

allanjie/chat_robot_qwen

Text Generation • 8B • Updated Jun 29, 2024 • 1

allanjie/chat_robot

Text Generation • 8B • Updated Jun 29, 2024

allanjie/ppo-LunarLander-v2

Reinforcement Learning • Updated Dec 27, 2022 • 1

allanjie/ppo-LunarLander-v2-test

Updated Dec 27, 2022

allanjie/math23k_train_test_roberta-base

Updated Sep 18, 2022 • 1 • 1

datasets 4

allanjie/obt_and_mma_dataset

Viewer • Updated Sep 9, 2024 • 195k • 6 • 1

allanjie/mma

Viewer • Updated Aug 9, 2024 • 333k • 13

allanjie/agent_reft_feedback_based_actor

Viewer • Updated Jul 23, 2024 • 6.2k • 2

allanjie/agent_reft_feedback_warmup

Viewer • Updated Jul 23, 2024 • 13.2k • 2