Tanmay's Research

Jump to year: 2026 2025 2024 2023 2022 2021 2020 2019 2018 2017 2016 2015 2014

2026

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web
Tanmay Gupta, Piper Wolters, Zixian Ma, Peter Sushko, Rock Yuren Pang, Diego Llanes, Yue Yang, Taira Anderson, Boyuan Zheng, Zhongzheng Ren, Harsh Trivedi, Taylor Blanton, Caleb Ouellette, Winson Han, Ali Farhadi, Ranjay Krishna

ECCV 2026Web-useVision & Language

2025

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi

arXiv 2025RLTool-useVision & Language

arxiv | code

MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use
Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta

arXiv 2025Code-use

arxiv | code

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
Matt Dietke, Christopher Clark, Many Authors, Tanmay Gupta, Many Authors, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi

Best Paper Honorable Mention @ CVPR 2025

CVPR 2025Vision & Language

arxiv | demo | code | blog

Scaling text-rich image understanding via code-guided synthetic multimodal data generation
Yue Yang, Ajay Patel, Matt Dietke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark

ACL 2025Vision & LanguageSynthetic Data

arxiv | code | data

2024

Task Me Anything
Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michael, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna

NeurIPS 2024EvaluationVision & Language

arxiv | code

CodeNav: Beyond tool-use to using real-world codebases with LLM agents
Tanmay Gupta, Luca Weihs, Aniruddha Kembhavi

arXiv 2024Code-use

arxiv | demo | code

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks
Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna

ECCV 2024Tool-useEvaluation

arxiv | code | data

Spoc: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World
Tanmay Gupta, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Luca Weihs, Kuo-Hao Zeng, Kunal Pratap Singh, Yejin Kim, Winson Han, Alvaro Herrasti, Ranjay Krishna, Dustin Schwenk, Eli VanderBilt, Aniruddha Kembhavi

CVPR 2024RoboticsSynthetic DataVision & Language

arxiv | code

Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning
Tejas Srinivasan, Jack Hessel, Tanmay Gupta, Bill Yuchen Lin, Yejin Choi, Jesse Thomason, Khyathi Raghavi Chandu

ACL Findings 2024Vision & Language

arxiv

2023

Visual Programming: Compositional visual reasoning without training
Tanmay Gupta, Aniruddha Kembhavi

Best Paper @ CVPR 2023

CVPR 2023Tool-useVision & Language

arxiv | code | blog

OBJECT 3DIT: Language-guided 3D-aware Image Editing
Oscar Michael, Anand Bhattad, Ranjay Krishna, Aniruddha Kembhavi, Tanmay Gupta

NeurIPS 2023Image EditingSynthetic DataVision & Language

arxiv | code

2022

GRIT: General Robust Image Task Benchmark
Tanmay Gupta, Ryan Marten, Aniruddha Kembhavi, Derek Hoiem

arXiv 2022EvaluationVision & Language

arxiv

Webly Supervised Concept Expansion for General Purpose Vision Models
Amita Kamath, Christopher Clark, Tanmay Gupta, Aniruddha Kembhavi, Derek Hoiem

ECCV 2022Vision & Language

arxiv | code

Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture
Tanmay Gupta, Amita Kamath, Aniruddha Kembhavi, Derek Hoiem

CVPR 2022Vision & Language

arxiv | code | video

2021

Learning Curves for Analysis of Deep Networks
Derek Hoiem, Tanmay Gupta, Zhizhong Li, Michal M. Shlapentokh-Rothman

ICML 2021Evaluation

arxiv | code

Visual Semantic Role Labeling for Video Understanding
Arka Sadhu, Tanmay Gupta, Mark Yatskar, Aniruddha Kembhavi

CVPR 2021Video UnderstandingEvaluation

arxiv | code

2020

Contrastive Learning for Weakly Supervised Phrase Grounding
Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, Jan Kautz, Derek Hoiem

ECCV 2020Vision & Language

arxiv | code

PhD Thesis: Representations from Vision and Language
Tanmay Gupta

PhD Thesis, UIUC 2020ThesisVision & Language

pdf | slides

2019

ViCo: Word Embeddings from Visual Co-occurrences
Tanmay Gupta, Alexander Schwing, Derek Hoiem

ICCV 2019Vision & Language

arxiv | code

No-Frills Human-Object Interaction Detection: Factorization, Layout Encodings, and Training Techniques
Tanmay Gupta, Alexander Schwing, Derek Hoiem

ICCV 2019Image Understanding

arxiv | code

2018

Imagine This! Scripts to Compositions to Videos
Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem, Aniruddha Kembhavi

ECCV 2018Video GenerationVision & Language

arxiv | data | video

2017

Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks
Tanmay Gupta, Kevin Shih, Saurabh Singh, Derek Hoiem

ICCV 2017Vision & Language

arxiv | slides

2016

3DFS: Deformable Dense Depth Fusion and Segmentation for Object Reconstruction from a Handheld Camera
Tanmay Gupta, Daeyun Shin, Naren Sivagnanadasan, Derek Hoiem

arXiv 20163D

arxiv | video

2015

Completing 3D Object Shape from One Depth Image
Jason Rock, Tanmay Gupta, Justin Thorsen, JunYoung Gwak, Daeyun Shin, Derek Hoiem

CVPR 20153D

arxiv | code | data | video

2014

Face Tracking and Recognition with Orientation, Pose and Illumination Variations
Tanmay Gupta, Shubham Gupta, Aditya K. Jagannatham

Undergrad Thesis, IIT Kanpur 2014ThesisImage Understanding

pdf