11institutetext:北京交通大学交通数据分析与挖掘北京市重点实验室,中国北京 22institutetext:清华大学,北京,中国

迈向全面的多模态感知:引入触摸-语言-视觉数据集

Ning Cheng 11    Li You 11    Ging Gao 11    Jinan Xu 11    Bin Fang 22    Wenjuan Han 11
摘要

触觉为人类和机器人的感知和交互能力提供了重要的支持和增强。 然而,与触觉相关的多模态研究主要集中在视觉和触觉模态,在语言领域的探索有限。 除了词汇之外,句子级描述还包含更丰富的语义。 在此基础上,我们通过人机级联协作构建了一个名为 TLV(Touch-Language-Vision)的触摸语言视觉数据集,该数据集具有用于多模式对齐的句子级描述。 新数据集用于调整我们提出的轻量级训练框架 TLV-Link(通过对齐链接触摸、语言和视觉),以最小的参数调整 (1%) 实现有效的语义对齐。 项目页面:https://xiaoen0.github.io/touch.page/

关键词:
触觉相关的多模态感知触觉数据集模态对齐。

1简介

触觉在人类感觉系统中占有独特且关键的作用,构成我们对环境认知理解的基本基础,与视觉和听觉等其他感觉方式和谐共存。 触觉使我们能够感知物体的纹理、温度和硬度,并使我们能够探索环境并执行复杂的任务,例如抓取和操纵。 触摸的重要性不仅在人类中[6, 23],而且在机器人应用中[31, 19],其中触觉信息的获取和处理至关重要用于增强这些应用程序的感知能力和交互效率。

尽管触觉的重要性无可否认,但与触觉相关的多模型研究主要集中在视觉和触觉模态[7,39,25],在语言领域的探索有限。 虽然有一些与语言相关的作品,但它们主要停留在词汇层面,作为分类目的的标签[38,11,40] 这是因为注释较长文本所面临的更大挑战,包括复杂的叙述和高昂的费用。

图像到文本模型的不断创新[1, 36]可以从提示和图像生成流畅的文本,从而为较长文本的触觉标注提供了机会。 在这项工作中,我们通过人机级联协作标注,引入了一个与触觉相关的多模型数据集,名为 TLV(Touch-Language-Vision)。 TLV 包含三种模态:触摸、语言和视觉,任意两种模态之间具有成对对应关系,旨在加强触摸和语言之间的一致性。 与一组词汇(.,词汇级描述)相比,TLV中的描述是句子级的,能够传达更丰富、更完整的语义信息。

为了评估 TLV 的功效,我们将其用作训练数据集,并提出一种轻量级无监督训练方法,TLV-Link(通过对齐链接触摸、语言和视觉)。 该方法将所有模态映射到共享嵌入空间,从而实现有效的语义对齐。 为了提高训练效率,我们采用低秩适应(LoRA)[20]进行微调,仅调整1%的参数。 随后,我们使用跨域数据集评估 TLV-Link 在各种触觉分类任务上的性能。 实验结果证明了 TLV 数据集的潜力。 本文提出了以下贡献:

  • 推出 TLV,一种新的触摸语言视觉数据集,具有人机级联协作注释的句子级描述,解决较长文本的触觉标注挑战。

  • 提出TLV-Link,一种轻量级联合预训练框架,其特点是独立于标记数据、使用较小的数据集、模型参数的调整和可接受的性能。

  • 验证我们的数据集和方法的有效性,并为触觉相关任务的进一步优化提供方向。

2相关工作

2.1 触觉感知

提取和利用触觉信息(包括表面纹理、弹性和温度)为机器人技术和人工智能研究的进步带来了巨大希望[5,10,29] 目前的触觉传感器主要依靠视觉,使用摄像头和照明系统来记录弯曲弹性体凝胶的变形。 这种结构催生了多种感知系统,包括 GelSight [38, 28, 24, 16, 3, 41, 34, 8]、DIGIT [25, 35, 26]、Taxim [14]、GelSlim [13] 和 TACTO [12] 这些系统旨在全面记录高分辨率、详细的触觉信息。 其中,GelSight [38] 脱颖而出,成为最广泛使用的触觉感知系统之一,提供对深度、剪切力和表面方向的精细捕获。 这项工作主要利用来自 GelSight 的传感器图像。

2.2 触觉数据集

从触觉方式学习的一个重大挑战在于构建高质量数据集所需的大量人力和时间。 尽管存在这一障碍,研究社区的持续努力已经产生了几个公开可用的数据集:Objectfolder 2.0 [12](具有通过模拟生成的 1,000 个隐式表示的对象)、SSVTP [25] (包含使用 DIGIT 获取的 4.5K 个空间对齐的图像-触觉对)、成功感 [3](采用两指夹具和 GelSight 传感器)、Touch and Go [38] (一个高质量的野外数据集,包含不同的类别和定量视觉触觉对)和 VisGel [28](一个包含超过 12K 个触摸实例和 300 万个视觉的数据集) -触摸框)。 然而,这些数据集缺乏丰富的文本描述,阻碍了它们实现更高级别的跨模式对齐的潜力。 这项工作通过结合详细和定性的标题来解决这一限制,促进更全面和更先进的跨模式理解。

2.3 多模式对齐

有效地对齐来自不同模态的语义是多模态研究的基础和关键,但构建包含不同模态特征的高维联合嵌入空间一直具有挑战性。 CLIP [32] 通过在从互联网上抓取的 4 亿个图像文本对的海量数据集上进行自监督对比预训练,取得了卓越的性能和泛化能力。 随后的作品如 ALIGN [22]、Flamingo [2]、Open-CLIP [33] 进一步推动了该领域朝着更强大和更强大的方向发展。准确对准。 除了视觉和语言模式之外,重要的研究工作旨在弥合更多样化的模式之间的差距,包括 3D 点 [30, 37, 43, 17]、音频 [18, 4]. ImageBind [15] 通过以图像为中心的对比学习,显着扩展了联合嵌入空间以涵盖六种不同的模态,进一步促进了全面的跨模态理解。 沿着这个思路,LanguageBind[44]提出了一种以语言为中心的对齐策略,充分利用文本中丰富的语义信息,实现了显着的性能提升。 这项工作建立在这些进步的基础上,进一步扩展跨模式对齐,同时包括触摸和其他模式。

3 TLV数据集

TLV 数据集旨在将触觉和视觉感知与句子级描述相关联,以实现多模态对齐。 如图1所示,TLV的构建过程由三个阶段组成:触摸和视觉收集(第3.1节)、触摸定位(第3.1节)。 3.2)和触觉标签(第3.3节)。

Refer to caption
图1: TLV数据集的构建过程。

3.1第一阶段:触觉和视觉集合

我们从 VisGel [28](由摄像机收集的大型视觉触摸数据集)和名为 GelSight [24] 的触觉传感器收集配对的触觉和视觉观察结果。 VisGel 捕获机械臂触摸物体的场景的同步视频并记录时间戳以同步视觉和触觉图像。 在捕获的同步视频中,使用 10,000 个训练视频来构建数据集。 我们利用这 10,000 个同步视频中的同步视觉和触觉图像来收集触觉和视觉。

从视觉视频中,我们观察到第一帧描绘了机械臂远离物体时的起始状态。 随着时间的推移,手臂逐渐接近物体直至接触,保持接触一段时间,然后慢慢退出。 基于上述观察,对于每对同步视频,我们选择两组同步的视觉和触觉帧:一组描绘被触摸的物体,另一组显示没有被触摸的物体。 为了获取对象被触摸的帧,我们使用第一帧作为背景并应用帧差分[42] 选择与背景差异最大的帧作为对象被触摸的帧。 通过观察,我们统一选择第40帧作为没有物体被触摸的帧。

3.2第二阶段:触摸定位

触觉和视觉这两种模态可以被视为包含相同语义的不同视图。 从这个角度来看,我们招募参与者在第一阶段的视觉图像中标记被触摸的物体。 对于没有触摸物体的视觉图像,我们不考虑它们。 这作为触觉本地化的预备知识,为下一步使用 GPT-4V [1] 进行触觉标记做准备。 触摸定位包括两部分:在视觉图像中用红框突出显示触摸的对象,并为封闭的对象提供名称。 对象名称的标签是开放式的,我们不提供一组预定义的候选对象名称。 在对象标注过程中,我们发现由于原始数据集(. VisGel)采集过程中的问题,导致某些数据无法标注。 例如,触摸的对象被遮挡或整个视频不涉及与任何对象的交互的情况。 我们已经过滤掉了此类数据。

3.3第三阶段:触觉标签

从触觉和视觉中包含相同语义的角度来看,我们使用 GPT-4V 作为文本的标注。 对于第二阶段中带有突出显示框的每个视觉图像,我们采用了精心设计的特定于数据的提示。 该提示指示 GPT-4V 生成详细描述,考虑触摸物体的名称、接触的具体位置、接触点的材料成分以及物体的纹理特征和软硬度等因素。触摸的区域。 对于没有接触物体的视觉图像,我们不使用 GPT-4V 来表示标注,而是提供统一的描述: 没有物体被触摸。.

3.4数据集统计

我们对从 VisGel 收集的 20,000 对同步触觉和视觉观察进行了基于文本的描述注释,其中包括 10,000 对有物体被触摸的数据和 10,000 对没有物体被触摸的数据。 对于触摸物体的情况,我们过滤掉了第二阶段中提到的无法注释的数据,得到了 9,843 个实例的标注。 对于没有触摸物体的情况,我们注释了所有 10,000 个实例。 因此,我们最终总共获得了 19,834 个带注释的数据条目。 据我们所知,这是第一个具有句子级描述的触摸语言视觉数据集。

4方法

我们提出了 TLV-Link(通过对齐链接触摸、语言和视觉),这是一种无监督的轻量级联合训练方法,旨在利用我们构建的 TLV 数据集。 TLV中的视觉观察可以被认为是辅助信息,有助于学习触摸和语言之间的对齐,并增强触摸的零样本分类能力。 该方法主要由多模态编码器、LoRA微调和联合训练三个部分组成,如图2所示。

Refer to caption
图2: 我们的轻量级联合训练方法概述。

4.1 多模态编码器

TLV-Link 涉及三种模式:触摸、语言和视觉。 我们将触摸模态视为 RGB 图像进行处理。 因此,对于触摸和视觉模态,我们使用 Vision Transformer(i.e.,ViT)[9] 进行编码。 触摸和视觉编码器被实例化为 OpenCLIP [21] 视觉编码器。 对于文本编码器,我们将其实例化为 OpenCLIP 文本编码器。

4.2LoRA微调

与之前的方法[27]不同,我们不利用大规模数据集进行预训练。 相反,我们采用 LoRA [20] 对 TLV 数据集进行轻量级微调。 对于具有权重矩阵 W0d×k 的模态无关编码器 f(),我们在学习新的权重矩阵 BA 时保持权重矩阵 W0 冻结>。 前向传播可以形式化如下:

f(𝒙)=W0𝒙+BA𝒙 (1)

其中 Bd×r,Ar×k,rdk 中的最小值。

4.3 联合训练

联合学习旨在更好地协调触觉和语言。 在学习触觉和语言之间的对齐的同时,我们还获得了有关视觉和语言之间的对齐以及触摸和视觉之间的对齐的知识。 OpenCLIP的文本编码器在文本中表现出了良好的泛化性,因此在联合学习过程中,我们冻结文本编码器,仅更新触摸编码器和视觉编码器。 视觉编码器的更新是为了辅助触摸编码器的更新。 为了确保不同模式之间的一致性,我们对联合学习执行对比学习原则[32]

LT,L=1Ki=1Klogexp(xiyi/τ)j=1Kexp(xiyj/τ), (2)
LV,L=1Ki=1Klogexp(ziyi/τ)j=1Kexp(ziyj/τ),
LT,V=1Ki=1Klogexp(xizi/τ)j=1Kexp(xizj/τ)

其中x,y,z分别表示触觉、语言和视觉模态的观察结果,τK是标量温度和批量大小。 在实践中,我们使用对称联合损失(LT,L+LL,T)+α(LV,L+LL,V)+β(LT,V+LV,T)

5实验

5.1设置

我们使用 Touch-and-Go 数据集[38]在各种触觉分类任务上评估我们的模型和数据集,包括材料、硬/软和粗糙/光滑分类。 这意味着零样本评估是在跨域数据集上进行的。 TLV-Link 基于 OpenCLIP-large [21] 进行扩展,并以无监督和轻量级的方式在我们的 TLV 数据集上进行微调。 由于视觉模态被视为辅助信息,因此在对称关节损失中αβ均设置为0.1。 我们使用准确性作为衡量标准。

5.2结果与分析

我们将我们的模型与 ViT-LENS-2 [27]进行了对比,ViT-LENS-2 是最先进的多模型,在触觉任务的零样本性能方面表现出色。 不同模型的对比结果见表1 虽然 TLV-Link 的准确性可能不是最佳的,但与我们的基础 OpenCLIP 相比,材料分类方面的改进提高了 8.3%。 尤其重要的是硬/软和粗糙/光滑分类方面的显着改进,TLV-Link 的性能提升了 30% 以上。 尽管如此,与基础 ImageBind [15] 相比,VIT-LENS-2 (I) 的性能提升了 7% 到 9%。 尽管 VIT-LENS-2 (I+T) 在材料分类方面显示出 41.6% 的显着提升,但在粗糙/光滑分类方面却下降了 6%。 这反映了TLV数据集的有效性以及TLV-Link利用数据的效率。 当然,我们认识到 TLV-Link 的某些性能局限性,从而促使我们分析 TLV-Link 和 ViT-LENS-2 在训练范式、数据、参数调整比率和跨域评估方面的区别,如表所示2 可以看出,TLV-Link 的特点是训练独立于标记数据、使用较小的数据集、轻量级方法以及跨不同数据域的评估。 这可以使其对于特定应用场景更具吸引力。

表1 不同模型在各种触觉分类上的准确性。 与各自基础相比,性能提升在 30% 以内的标记为绿色,超过 30% 的标记为红色 V-L-2:VIT-LENS-2; (I):以图像为锚定; (I+T):以图像和文本为锚定。
Model Size Touch and Go
Material Hard/Soft Rough/Smooth
ImageBind Base 24.2 65.7 69.8
V-L-2 (I) Base 29.9 (+5.7%) 72.4 (+6.7%) 77.9 (+8.1%)
V-L-2 (I) Large 31.2 (+7.0%) 74.3 (+8.6%) 78.2 (+8.4%)
V-L-2 (I+T) Large 65.8 (+41.6%) 74.7 (+9.0%) 63.8 (-6.0%)
OpenCLIP Large 17.7 32.2 42.7
TLV-Link Large 26.0 (+8.3%) 65.1 (+32.9%) 74.6 (+31.9%)
表2 我们和VIT-LENS-2在训练范式(TP)、#训练数据(#TD)、参数调整比率(PTR)方面的比较)、跨域评估(CDE)。
Model TP #TD PTR CDE
VIT-LENS-2 Supervised 91,982 100%
TLV-Link Unsupervised 19,843 1%

5.3消融研究

我们在表3中进行了消融研究,以说明视觉信息的影响。 同时将触摸和文本与视觉信息对齐可以增强触觉分类,从而产生积极的整体效果。 相反,将触摸或文本与视觉信息对齐会产生不利影响。

表3: 不同级别的视觉信息的影响。 -电视:不要将触摸与视觉对齐; -VL:不要将语言与视觉结合起来; -(TV&VL):不涉及视觉信息。
Model Touch and Go
Material Hard/Soft Rough/Smooth
TLV-Link 26.0 65.1 74.6
-TV 27.8 52.8 52.7
-VL 26.5 55.3 49.1
-(TV&VL) 32.5 56.5 56.6

6结论

在这项工作中,我们构建了第一个触摸语言视觉数据集 TLV,具有用于多模态对齐的句子级描述。 为了证明 TLV 数据集的有效性,我们扩展了 OpenCLIP 训练并提出了 TLV-Link,这是一种无监督的轻量级方法。 初步知识实验验证了 TLV 数据集有助于更好地协调触摸和语言。 所提出的方法可能适用于特定场景,但在性能方面还有改进的空间,需要进一步增强。 此外,我们打算将 TLV 的应用扩展到更多任务,以充分发挥其潜力。

参考

  • [1] Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F.L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., et al.: Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)
  • [2] Alayrac, J.B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y., Lenc, K., Mensch, A., Millican, K., Reynolds, M., et al.: Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems 35, 23716–23736 (2022)
  • [3] Calandra, R., Owens, A., Upadhyaya, M., Yuan, W., Lin, J., Adelson, E.H., Levine, S.: The feeling of success: Does touch sensing help predict grasp outcomes? arXiv preprint arXiv:1710.05512 (2017)
  • [4] Chen, J., Zhang, R., Lian, D., Yang, J., Zeng, Z., Shi, J.: iquery: Instruments as queries for audio-visual sound separation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 14675–14686 (2023)
  • [5] Cui, S., Wang, R., Wei, J., Hu, J., Wang, S.: Self-attention based visual-tactile fusion learning for predicting grasp outcomes. IEEE Robotics and Automation Letters 5(4), 5827–5834 (2020)
  • [6] Dahiya, R.S., Metta, G., Valle, M., Sandini, G.: Tactile sensing—from humans to humanoids. IEEE transactions on robotics 26(1), 1–20 (2009)
  • [7] Dave, V., Lygerakis, F., Rückert, E.: Multimodal visual-tactile representation learning through self-supervised contrastive pre-training. In: Proceedings/IEEE International Conference on Robotics and Automation. Institute of Electrical and Electronics Engineers (2024)
  • [8] Dong, S., Yuan, W., Adelson, E.H.: Improved gelsight tactile sensor for measuring geometry and slip. In: 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). pp. 137–144 (2017)
  • [9] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. In: International Conference on Learning Representations (2020)
  • [10] Fazeli, N., Oller, M., Wu, J., Wu, Z., Tenenbaum, J.B., Rodriguez, A.: See, feel, act: Hierarchical learning for complex manipulation skills with multisensory fusion. Science Robotics 4(26), eaav3123 (2019)
  • [11] Gao, R., Taunyazov, T., Lin, Z., Wu, Y.: Supervised autoencoder joint learning on heterogeneous tactile sensory data: Improving material classification performance. In: 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). pp. 10907–10913. IEEE (2020)
  • [12] Gao, R., Chang, Y.Y., Mall, S., Fei-Fei, L., Wu, J.: Objectfolder: A dataset of objects with implicit visual, auditory, and tactile representations. In: 5th Annual Conference on Robot Learning (2021)
  • [13] Gao, R., Dou, Y., Li, H., Agarwal, T., Bohg, J., Li, Y., Fei-Fei, L., Wu, J.: The objectfolder benchmark: Multisensory learning with neural and real objects. In: IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)
  • [14] Gao, R., Si, Z., Chang, Y.Y., Clarke, S., Bohg, J., Fei-Fei, L., Yuan, W., Wu, J.: Objectfolder 2.0: A multisensory object dataset for sim2real transfer. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 10598–10608 (2022)
  • [15] Girdhar, R., El-Nouby, A., Liu, Z., Singh, M., Alwala, K.V., Joulin, A., Misra, I.: Imagebind: One embedding space to bind them all. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 15180–15190 (2023)
  • [16] Gomes, D.F., Paoletti, P., Luo, S.: Generation of gelsight tactile images for sim2real learning. IEEE Robotics and Automation Letters 6(2), 4177–4184 (2021)
  • [17] Guo, Z., Zhang, R., Zhu, X., Tang, Y., Ma, X., Han, J., Chen, K., Gao, P., Li, X., Li, H., et al.: Point-bind & point-llm: Aligning point cloud with multi-modality for 3d understanding, generation, and instruction following. arXiv preprint arXiv:2309.00615 (2023)
  • [18] Guzhov, A., Raue, F., Hees, J., Dengel, A.: Audioclip: Extending clip to image, text and audio. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 976–980. IEEE (2022)
  • [19] Hansen, J., Hogan, F., Rivkin, D., Meger, D., Jenkin, M., Dudek, G.: Visuotactile-rl: Learning multimodal manipulation policies with deep reinforcement learning. In: 2022 International Conference on Robotics and Automation (ICRA). pp. 8298–8304. IEEE (2022)
  • [20] Hu, E.J., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., Chen, W., et al.: Lora: Low-rank adaptation of large language models. In: International Conference on Learning Representations (2021)
  • [21] Ilharco, G., Wortsman, M., Wightman, R., Gordon, C., Carlini, N., Taori, R., Dave, A., Shankar, V., Namkoong, H., Miller, J., Hajishirzi, H., Farhadi, A., Schmidt, L.: Openclip (Jul 2021). https://doi.org/10.5281/zenodo.5143773, https://doi.org/10.5281/zenodo.5143773
  • [22] Jia, C., Yang, Y., Xia, Y., Chen, Y.T., Parekh, Z., Pham, H., Le, Q., Sung, Y.H., Li, Z., Duerig, T.: Scaling up visual and vision-language representation learning with noisy text supervision. In: International conference on machine learning. pp. 4904–4916. PMLR (2021)
  • [23] Johansson, R.S., Flanagan, J.R.: Coding and use of tactile signals from the fingertips in object manipulation tasks. Nature Reviews Neuroscience 10(5), 345–359 (2009)
  • [24] Johnson, M.K., Cole, F., Raj, A., Adelson, E.H.: Microgeometry capture using an elastomeric sensor. ACM Transactions on Graphics (TOG) 30(4), 1–8 (2011)
  • [25] Kerr, J., Huang, H., Wilcox, A., Hoque, R., Ichnowski, J., Calandra, R., Goldberg, K.: Self-supervised visuo-tactile pretraining to locate and follow garment features. arXiv preprint arXiv:2209.13042 (2022)
  • [26] Lambeta, M., Chou, P.W., Tian, S., Yang, B., Maloon, B., Most, V.R., Stroud, D., Santos, R., Byagowi, A., Kammerer, G., et al.: Digit: A novel design for a low-cost compact high-resolution tactile sensor with application to in-hand manipulation. IEEE Robotics and Automation Letters 5(3), 3838–3845 (2020)
  • [27] Lei, W., Ge, Y., Yi, K., Zhang, J., Gao, D., Sun, D., Ge, Y., Shan, Y., Shou, M.Z.: Vit-lens-2: Gateway to omni-modal intelligence. arXiv preprint arXiv:2311.16081 (2023)
  • [28] Li, Y., Zhu, J.Y., Tedrake, R., Torralba, A.: Connecting touch and vision via cross-modal prediction. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 10609–10618 (2019)
  • [29] Lin, J., Calandra, R., Levine, S.: Learning to identify object instances by touch: Tactile recognition via multimodal matching. In: 2019 International Conference on Robotics and Automation (ICRA). pp. 3644–3650 (2019)
  • [30] Liu, M., Shi, R., Kuang, K., Zhu, Y., Li, X., Han, S., Cai, H., Porikli, F., Su, H.: Openshape: Scaling up 3d shape representation towards open-world understanding. Advances in Neural Information Processing Systems 36 (2024)
  • [31] Qi, H., Yi, B., Suresh, S., Lambeta, M., Ma, Y., Calandra, R., Malik, J.: General in-hand object rotation with vision and touch. In: Conference on Robot Learning. pp. 2549–2564. PMLR (2023)
  • [32] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International conference on machine learning. pp. 8748–8763. PMLR (2021)
  • [33] Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C.W., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., Schramowski, P., Kundurthy, S.R., Crowson, K., Schmidt, L., Kaczmarczyk, R., Jitsev, J.: LAION-5b: An open large-scale dataset for training next generation image-text models. In: Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (2022), https://openreview.net/forum?id=M3Y74vmsMcY
  • [34] Si, Z., Yuan, W.: Taxim: An example-based simulation model for gelsight tactile sensors. IEEE Robotics and Automation Letters 7(2), 2361–2368 (2022)
  • [35] Suresh, S., Si, Z., Anderson, S., Kaess, M., Mukadam, M.: Midastouch: Monte-carlo inference over distributions across sliding touch. In: Conference on Robot Learning. pp. 319–331 (2023)
  • [36] Team, G., Anil, R., Borgeaud, S., Wu, Y., Alayrac, J.B., Yu, J., Soricut, R., Schalkwyk, J., Dai, A.M., Hauth, A., et al.: Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805 (2023)
  • [37] Xue, L., Gao, M., Xing, C., Martín-Martín, R., Wu, J., Xiong, C., Xu, R., Niebles, J.C., Savarese, S.: Ulip: Learning a unified representation of language, images, and point clouds for 3d understanding. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 1179–1189 (2023)
  • [38] Yang, F., Ma, C., Zhang, J., Zhu, J., Yuan, W., Owens, A.: Touch and go: Learning from human-collected vision and touch. Advances in Neural Information Processing Systems 35, 8081–8103 (2022)
  • [39] Yang, F., Zhang, J., Owens, A.: Generating visual scenes from touch. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 22070–22080 (2023)
  • [40] Yuan, W., Wang, S., Dong, S., Adelson, E.: Connecting look and feel: Associating the visual and tactile properties of physical materials. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 5580–5588 (2017)
  • [41] Yuan, W., Zhu, C., Owens, A., Srinivasan, M.A., Adelson, E.H.: Shape-independent hardness estimation using deep learning and a gelsight tactile sensor. In: 2017 IEEE International Conference on Robotics and Automation (ICRA). pp. 951–958 (2017)
  • [42] Zaki, W.M.D.W., Hussain, A., Hedayati, M.: Moving object detection using keypoints reference model. EURASIP J. Image Video Process. 2011(1), 13 (2011)
  • [43] Zhang, R., Zeng, Z., Guo, Z., Li, Y.: Can language understand depth? In: Proceedings of the 30th ACM International Conference on Multimedia. pp. 6868–6874 (2022)
  • [44] Zhu, B., Lin, B., Ning, M., Yan, Y., Cui, J., HongFa, W., Pang, Y., Jiang, W., Zhang, J., Li, Z., et al.: Languagebind: Extending video-language pretraining to n-modality by language-based semantic alignment. In: The Twelfth International Conference on Learning Representations (2023)