Xiao Yu

I am a third year Ph.D. student in Computer Science at Columbia University advised by Zhou Yu. I have interned at Microsoft Research and Google Research during my Ph.D. studies. Before joining the Ph.D. program, I was an undergrad also at Columbia University, majoring in Computer Science and minoring in Applied Physics.

🌟 Currently, I focus on enhancing the planning, robustness, and safety of multi-modal agents in complex environments, especially for browser/computer/phone-use.

Scalable Reinforcement Learning algorithms

World Model training methods such as Dyna

Planning Algorithms such as MCTS

🚀 My most recent work include (in chronological order):

arXiv

OpenForgeRL: Train Harness-native Agents in Any Environment

Xiao Yu, Baolin Peng, Ruize Xu, Hao Zou, Qianhui Wu, Hao Cheng, Wenlin Yao, Nikhil Singh, Zhou Yu, Jianfeng Gao

Paper

arXiv

OSWorld 2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

Mengqi Yuan, Zilong Zhou, Xinzhuang Xiong, Weiming Wu, Jiayang Sun, Jiamin Song, Kaiqian Cui, Bowen Wang, Haoyuan Wu, Yitong Li, Dunjie Lu, Haikong Lu, Qi Zhen, Xinyuan Wang, Jiaqi Deng, Yuhao Yang, Cheng Chen, Boyuan Zheng, Alex Su, Xiao Yu, Hao Zou, Saaket Agashe, Xing Han Lu, Manpreet Kaur, Zhengyang Qi, Vincent Sunn Chen, Frederic Sala, Dayiheng Liu, Junyang Lin, Zhou Yu, Yu Su, Siva Reddy, Xin Eric Wang, Peng Qi, Tianbao Xie, Tao Yu

Paper

arXiv

Orchard: An Open-Source Agentic Modeling Framework

Baolin Peng, Wenlin Yao, Qianhui Wu, Hao Cheng, Xiao Yu, Rui Yang, Tao Ge, Alessandro Sordoni, Xingdi Yuan, Yelong Shen, Pengcheng He, Tong Zhang, Zhou Yu, Jianfeng Gao

Paper

arXiv

Reinforcement World Model Learning for LLM-based Agents

Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu

Paper

ICLR 2026

Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao

Paper

GitHub

ICLR 2026
(Workshop)

Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents

Xiao Yu, Baolin Peng, Ruize Xu, Michel Galley, Hao Cheng, Suman Nath, Jianfeng Gao, Zhou Yu

Paper

See all publications for the full list.

🏆 Honors & Awards:

2025

Organizer

COLM 2025 Workshop on AI Agents: Capabilities and Safety · Montreal, Canada

2025

PhD Service Award

Columbia University CS Department · New York, NY, USA

2024

Outstanding Paper Award

NAACL 2024 · Mexico City, Mexico

2022

Best in DS and CS Research

Columbia Data Science Institute Research Fair · New York, NY, USA