arxiv preprint - ViNT: A Foundation Model for Visual Navigation

In this episode we discuss ViNT: A Foundation Model for Visual Navigation
by Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine. The paper presents ViNT, a pre-trained foundation model for visual navigation in robotics. It utilizes a Transformer-based architecture and is trained with a goal-reaching objective. ViNT demonstrates positive transfer on different navigation datasets from various robotic platforms and can handle kilometer-scale navigation problems. It can also be adapted to new task specifications using prompt-tuning and is proposed as a promising solution for mobile robotics.

arxiv preprint – ViNT: A Foundation Model for Visual Navigation