DeepAI-2022 Can Language Understand Depth?

论文地址:Can Language Understand Depth?

论文实现:https://github.com/Adonis-galaxy/DepthCLIP

DepthCLIP:深度估计回归变分类用CLIP

Abstract

将从CLIP中学习到的语义知识转移到更复杂的量化目标任务中,如利用几何信息进行深度估计,仍然是很难的任务。本文提出应用CLIP于zero-shot深度估计,即DepthCLIP

Method

avatar

把深度估计从回归问题变成一个分类问题,强制把深度距离分成几个大类,用图2上面那些单词来描述远近,并对应数值,文本特征乘以视觉特征得到相似度矩阵

Experiment

avatar
avatar