Publications

CodeNav: Beyond tool-use to using real-world codebases with LLM agents

Tanmay Gupta* Luca Weihs* Aniruddha Kembhavi

arXiv 2024

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

Zixian Ma Weikai Huang Jieyu Zhang Tanmay Gupta Ranjay Krishna

arXiv 2024

SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World

Tanmay Gupta* Kiana Ehsani* Luca Weihs* Rose Hendrix* Jordi Salvador* Kuo-Hao Zeng* Kunal Pratap Singh Yejin Kim Winson Han Alvaro Herrasti Ranjay Krishna Dustin Schwenk Eli VanderBilt Aniruddha Kembhavi

CVPR 2024

Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning

Tejas Srinivasan Jack Hessel Tanmay Gupta Bill Yuchen Lin Yejin Choi Jesse Thomason Khyathi Raghavi Chandu

ACL Findings 2024

OBJECT 3DIT: Language-guided 3D-aware Image Editing

Oscar Michael Anand Bhattad Ranjay Krishna Aniruddha Kembhavi Tanmay Gupta

NeurIPS 2023

Visual Programming: Compositional visual reasoning without training

Tanmay Gupta Aniruddha Kembhavi

CVPR 2023

GRIT: General Robust Image Task Benchmark

Tanmay Gupta Ryan Marten Aniruddha Kembhavi Derek Hoiem

arXiv 2022

Webly Supervised Concept Expansion for General Purpose Vision Models

Amita Kamath^* Christopher Clark^* Tanmay Gupta^* Aniruddha Kembhavi Derek Hoiem

ECCV 2022

Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture

Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem

CVPR 2022 (Oral)

Learning Curves for Analysis of Deep Networks

Derek Hoiem Tanmay Gupta Zhizhong Li Michal M. Shlapentokh-Rothman

ICML 2021

Visual Semantic Role Labeling for Video Understanding

Arka Sadhu Tanmay Gupta Mark Yatskar Aniruddha Kembhavi

CVPR 2021

Contrastive Learning for Weakly Supervised Phrase Grounding

Tanmay Gupta Arash Vahdat Gal Chechik Xiaodong Yang Jan Kautz Derek Hoiem

ECCV 2020 (Spotlight)

PhD Thesis: Representations from Vision and Language

Tanmay Gupta

Thomas M. Siebel Center for Computer Science
University of Illinois Urbana-Champaign
May 2020

ViCo: Word Embeddings from Visual Co-occurrences

Tanmay Gupta Alexander Schwing Derek Hoiem

ICCV 2019

No-Frills Human-Object Interaction Detection: Factorization, Layout Encodings, and Training Techniques

Tanmay Gupta Alexander Schwing Derek Hoiem

ICCV 2019

Imagine This! Scripts to Compositions to Videos

Tanmay Gupta Dustin Schwenk Ali Farhadi Derek Hoiem Aniruddha Kembhavi

ECCV 2018

Aligned Image-Word Representations Improve Inductive Transfer Across Vision-Language Tasks

Tanmay Gupta Kevin Shih Saurabh Singh Derek Hoiem

ICCV 2017

3DFS: Deformable Dense Depth Fusion and Segmentation for Object Reconstruction from a Handheld Camera

Tanmay Gupta Daeyun Shin Naren Sivagnanadasan Derek Hoiem

arXiv 2016

Completing 3D Object Shape from One Depth Image

Jason Rock Tanmay Gupta Justin Thorsen JunYoung Gwak Daeyun Shin Derek Hoiem

CVPR 2015

Face Tracking and Recognition with Orientation, Pose and Illumination Variations

Tanmay Gupta Shubham Gupta Aditya K. Jagannatham

Undergraduate Thesis, Department of Electrical Engineeging, IIT Kanpur. 2014

Templates (for web app):

Error