多媒体建议,其中包含各种方式(例如图像,文本等) ...
视觉讲故事是一个新兴领域,结合了图像和叙述,创造了引人入胜且上下文丰富的故事。尽管具有潜力,但由于对齐视觉和文本信息的复杂性,产生连贯和情感共鸣的视觉故事仍然具有挑战性。本文提出了一种新的方法,利用大型语言模型(LLM)和大型视觉模型(LVLM)与指导调整相结合以应对这些挑战 ...
在神经网络中,通常希望使用同一空间的各种表示。例如,3D旋转可以用四个旋转或欧拉角表示。在本文中,我们推进了连续表示的定义,这可能有助于培训深层神经网络 ...
大语言模型的最新进展证明了它们从高级提示中自动生成硬件说明语言(HDL)代码的潜力。研究人员已经利用微调来增强这些大语言模型(LLM)在芯片设计领域的能力。但是,缺乏Verilog数据阻碍了LLMS Verilog生成质量的进一步改善 ...
受过对比损失训练的视觉语言模型(VLM)在各种视觉和语言任务中取得了重大进步。但是,对比损失的全球性质使VLM主要集中在前景对象上,忽略了图像中的其他关键信息,这限制了它们在下游任务中的有效性。为了应对这些挑战,我们提出了Cosmos:跨模式的自我介绍,以进行视觉预训练,将新颖的文本作品策略和跨意思模块整合到一个自我监督的学习框架中 ...
双手互动是由于自相似性,复杂的表达和手的遮挡而进行分析的最具挑战性信号之一。尽管已经提出了几个数据集用于双手交互分析,但所有数据集并未实现1)不同和现实的图像外观以及2)同时构成了多样化和大规模的地面图(GT)3D。在这项工作中,我们提出了RE:Destreathand,这是一个实现两个目标的重新互动相互作用的手的数据集 ...
当前的分割方法需要许多培训图像和精确的面具,而异常图像不足,阻碍了它们在工业场景中的应用。为了解决这一问题,我们探索产生各种异常和准确的像素注释。通过观察真实的生产线,我们发现异常在形状和外观上随机变化,而产品具有局部变化的全球一致模式 ...
语义同时定位和映射(SLAM)系统难以在近距离绘制语义上相似的对象,尤其是在混乱的室内环境中。我们介绍了对象SLAM(SEO-SLAM)的语义增强,这是一个新型的SLAM系统,该系统利用视觉语言模型(VLM)和多模式大语言模型(MLLMS)来增强此类环境中的对象级语义映射。 SEO-SLAM通过(1)使用MLLM产生更具体和描述性的开放式摄制对象标签,(2)同时纠正导致错误的地标的因子,以及(3) ...