Publications

“Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs” [PDF], Michael Lu, Matin Aghaei, Anant Raj, Sharan Vaswani. Reinforcement Learning Conference, 2024.

“Practical Principled Policy Optimization for Finite MDPs” [PDF], Michael Lu, Matin Aghaei, Anant Raj, Sharan Vaswani. Optimization for Machine Learning, NeurIPS, 2023 (Oral Presentation).