强化学习在各种问题领域跨越人类甚至超人级别的能力方面取得了令人鼓舞的结果,但是灵巧的机器人操纵的成功仍然有限。这项工作调查了应用强化学习的关键挑战,以解决人体机器人体现上的一系列接触式操纵任务的集合。我们介绍了新型技术,以克服经验验证的确定挑战 ...
随着电子商务的迅速扩展,越来越多的消费者习惯于通过直播进行购买。准确识别销售人员出售的产品,即 ...
VLM(视觉模型)扩展了LLM(大语言模型)接受多模式输入的功能。由于已经验证了LLM可以通过特定的测试用例(称为红色组合)引起LLMS产生有害或不准确的内容,因此VLM在类似情况下的表现,尤其是与文本和视觉输入的结合在一起,仍然是一个问题。为了探索这个问题,我们提出了一个新颖的红色小组数据集RTVLM,其中包含10个子任务(e ...
大型多模型模型(LMM)正在处理越来越长,更丰富的输入。尽管取得了进展,但很少有公共基准可以衡量这种发展。为了减轻这一差距,我们介绍了LongVideobench,这是一个提问的基准,它具有视频语言交织的输入长达一个小时的时间 ...
尽管视觉语言有效监督了微调在增强视觉大语模型(VLLM)的性能方面的有效性。但是,现有的视觉说明调谐数据集包括以下局限性:(1)指令注释质量:尽管现有的VLLM表现出强大的性能,但这些高级VLLM产生的指令仍可能遭受不准确的损失,例如幻觉。 (2)说明和图像多样性:指令类型的有限范围以及图像数据中缺乏多样性可能会影响该模型产生多样化并更接近现实世界情景输出的能力 ...
多模式大语言模型(MLLM)的进步已在多模式理解方面取得了重大进展,从而扩大了他们分析视频内容的能力。但是,MLLM的现有评估基准主要集中在抽象的视频理解上,缺乏对其理解视频构图能力的详细评估,对视觉元素如何在高度编译的视频环境中结合和互动的细微解释。我们介绍了VidComposition,这是一种新的基准测试,专门旨在使用精心策划的编译视频和电影级注释来评估MLLM的视频组成能力 ...
视觉语言模型 (VLM) 最近取得了重大进展,但与闭源模型相比,开源指令数据的规模和质量有限,阻碍了其性能。在这项工作中,我们通过引入 Infinity-MM 来解决这一限制,这是一个包含 4000 万个样本的大规模多模式指令数据集,并通过严格的质量过滤和重复数据删除进行了增强。我们还提出了一种基于开源 VLM 的综合指令生成方法,使用详细的图像注释和多样化的问题生成 ...
我们阐明了陷阱和物理信息神经网络(PINNS)的机会。我们证明,仅具有relu(整流线性单元)或类似Relu的Lipschitz激活功能的多层感知器(MLP)始终会导致消失的Hessian。这样的网络施加的约束与任何第二或高阶部分微分方程(PDE)矛盾 ...