Tanmay's Research

Jump to tags: Web-use Vision & Language RL Tool-use Code-use Synthetic Data Evaluation Robotics Image Editing Video Understanding Thesis Image Understanding Video Generation 3D

Web-use

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web
Tanmay Gupta, Piper Wolters, Zixian Ma, Peter Sushko, Rock Yuren Pang, Diego Llanes, Yue Yang, Taira Anderson, Boyuan Zheng, Zhongzheng Ren, Harsh Trivedi, Taylor Blanton, Caleb Ouellette, Winson Han, Ali Farhadi, Ranjay Krishna

ECCV 2026Web-useVision & Language

Vision & Language

ECCV 2026Web-useVision & Language

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi

arXiv 2025RLTool-useVision & Language

arxiv | code

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
Matt Dietke, Christopher Clark, Many Authors, Tanmay Gupta, Many Authors, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi

Best Paper Honorable Mention @ CVPR 2025

CVPR 2025Vision & Language

arxiv | demo | code | blog

Scaling text-rich image understanding via code-guided synthetic multimodal data generation
Yue Yang, Ajay Patel, Matt Dietke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark

ACL 2025Vision & LanguageSynthetic Data

arxiv | code | data

Task Me Anything
Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michael, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna

NeurIPS 2024EvaluationVision & Language

arxiv | code

Spoc: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World
Tanmay Gupta, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Luca Weihs, Kuo-Hao Zeng, Kunal Pratap Singh, Yejin Kim, Winson Han, Alvaro Herrasti, Ranjay Krishna, Dustin Schwenk, Eli VanderBilt, Aniruddha Kembhavi

CVPR 2024RoboticsSynthetic DataVision & Language

arxiv | code

Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning
Tejas Srinivasan, Jack Hessel, Tanmay Gupta, Bill Yuchen Lin, Yejin Choi, Jesse Thomason, Khyathi Raghavi Chandu

ACL Findings 2024Vision & Language

arxiv

Visual Programming: Compositional visual reasoning without training
Tanmay Gupta, Aniruddha Kembhavi

Best Paper @ CVPR 2023

CVPR 2023Tool-useVision & Language

arxiv | code | blog

OBJECT 3DIT: Language-guided 3D-aware Image Editing
Oscar Michael, Anand Bhattad, Ranjay Krishna, Aniruddha Kembhavi, Tanmay Gupta

NeurIPS 2023Image EditingSynthetic DataVision & Language

arxiv | code

GRIT: General Robust Image Task Benchmark
Tanmay Gupta, Ryan Marten, Aniruddha Kembhavi, Derek Hoiem

arXiv 2022EvaluationVision & Language

arxiv

Webly Supervised Concept Expansion for General Purpose Vision Models
Amita Kamath, Christopher Clark, Tanmay Gupta, Aniruddha Kembhavi, Derek Hoiem

ECCV 2022Vision & Language

arxiv | code

Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture
Tanmay Gupta, Amita Kamath, Aniruddha Kembhavi, Derek Hoiem

CVPR 2022Vision & Language

arxiv | code | video

Contrastive Learning for Weakly Supervised Phrase Grounding
Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, Jan Kautz, Derek Hoiem

ECCV 2020Vision & Language

arxiv | code

PhD Thesis: Representations from Vision and Language
Tanmay Gupta

PhD Thesis, UIUC 2020ThesisVision & Language

pdf | slides

ViCo: Word Embeddings from Visual Co-occurrences
Tanmay Gupta, Alexander Schwing, Derek Hoiem

ICCV 2019Vision & Language

arxiv | code

Imagine This! Scripts to Compositions to Videos
Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem, Aniruddha Kembhavi

ECCV 2018Video GenerationVision & Language

arxiv | data | video

Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks
Tanmay Gupta, Kevin Shih, Saurabh Singh, Derek Hoiem

ICCV 2017Vision & Language

arxiv | slides

arXiv 2025RLTool-useVision & Language

arxiv | code

Tool-use

arXiv 2025RLTool-useVision & Language

arxiv | code

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks
Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna

ECCV 2024Tool-useEvaluation

arxiv | code | data

Visual Programming: Compositional visual reasoning without training
Tanmay Gupta, Aniruddha Kembhavi

Best Paper @ CVPR 2023

CVPR 2023Tool-useVision & Language

arxiv | code | blog

Code-use

MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use
Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta

arXiv 2025Code-use

arxiv | code

CodeNav: Beyond tool-use to using real-world codebases with LLM agents
Tanmay Gupta, Luca Weihs, Aniruddha Kembhavi

arXiv 2024Code-use

arxiv | demo | code

Synthetic Data

ACL 2025Vision & LanguageSynthetic Data

arxiv | code | data

CVPR 2024RoboticsSynthetic DataVision & Language

arxiv | code

OBJECT 3DIT: Language-guided 3D-aware Image Editing
Oscar Michael, Anand Bhattad, Ranjay Krishna, Aniruddha Kembhavi, Tanmay Gupta

NeurIPS 2023Image EditingSynthetic DataVision & Language

arxiv | code

Evaluation

Task Me Anything
Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michael, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna

NeurIPS 2024EvaluationVision & Language

arxiv | code

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks
Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna

ECCV 2024Tool-useEvaluation

arxiv | code | data

GRIT: General Robust Image Task Benchmark
Tanmay Gupta, Ryan Marten, Aniruddha Kembhavi, Derek Hoiem

arXiv 2022EvaluationVision & Language

arxiv

Learning Curves for Analysis of Deep Networks
Derek Hoiem, Tanmay Gupta, Zhizhong Li, Michal M. Shlapentokh-Rothman

ICML 2021Evaluation

arxiv | code

Visual Semantic Role Labeling for Video Understanding
Arka Sadhu, Tanmay Gupta, Mark Yatskar, Aniruddha Kembhavi

CVPR 2021Video UnderstandingEvaluation

arxiv | code

Robotics

CVPR 2024RoboticsSynthetic DataVision & Language

arxiv | code

Image Editing

OBJECT 3DIT: Language-guided 3D-aware Image Editing
Oscar Michael, Anand Bhattad, Ranjay Krishna, Aniruddha Kembhavi, Tanmay Gupta

NeurIPS 2023Image EditingSynthetic DataVision & Language

arxiv | code

Video Understanding

Visual Semantic Role Labeling for Video Understanding
Arka Sadhu, Tanmay Gupta, Mark Yatskar, Aniruddha Kembhavi

CVPR 2021Video UnderstandingEvaluation

arxiv | code

Thesis

PhD Thesis: Representations from Vision and Language
Tanmay Gupta

PhD Thesis, UIUC 2020ThesisVision & Language

pdf | slides

Face Tracking and Recognition with Orientation, Pose and Illumination Variations
Tanmay Gupta, Shubham Gupta, Aditya K. Jagannatham

Undergrad Thesis, IIT Kanpur 2014ThesisImage Understanding

pdf

Image Understanding

No-Frills Human-Object Interaction Detection: Factorization, Layout Encodings, and Training Techniques
Tanmay Gupta, Alexander Schwing, Derek Hoiem

ICCV 2019Image Understanding

arxiv | code

Face Tracking and Recognition with Orientation, Pose and Illumination Variations
Tanmay Gupta, Shubham Gupta, Aditya K. Jagannatham

Undergrad Thesis, IIT Kanpur 2014ThesisImage Understanding

pdf

Video Generation

Imagine This! Scripts to Compositions to Videos
Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem, Aniruddha Kembhavi

ECCV 2018Video GenerationVision & Language

arxiv | data | video

3DFS: Deformable Dense Depth Fusion and Segmentation for Object Reconstruction from a Handheld Camera
Tanmay Gupta, Daeyun Shin, Naren Sivagnanadasan, Derek Hoiem

arXiv 20163D

arxiv | video

Completing 3D Object Shape from One Depth Image
Jason Rock, Tanmay Gupta, Justin Thorsen, JunYoung Gwak, Daeyun Shin, Derek Hoiem

CVPR 20153D

arxiv | code | data | video