多模式大型语言模型(MLLM)在各个数据集的视觉上下文中显示出有希望的数学推理能力。但是,大多数现有的多模式数学基准限于单视性上下文,这些上下文与现实世界中数学应用程序中常见的多视觉场景有所不同。为了解决这一差距,我们介绍了MV-MATH:一个精心策划的数据集的2,009个高质量数学问题 ...
我们提出了tinyllava框架,它为设计和分析小规模大型多模态模型(lmm)提供了统一的视角。我们实证研究了不同视觉编码器、连接模块、语言模型、训练数据和训练配方的效果。我们广泛的实验表明,与较大的lmm相比,更好的数据质量与更好的训练方案相结合,较小的lmm可以始终达到同等的性能... ...
基于扩散的生成模型已彻底改变了面向对象的图像编辑,但是它们在逼真的对象去除和插入中的部署仍然受到诸如物理效果的复杂相互作用和配对训练数据不足的挑战的阻碍。在这项工作中,我们介绍了Omnipaint,这是一个统一的框架,将对象的去除和插入重新概念化为相互依存的过程,而不是孤立的任务。通过循环流程,通过循环流进行了预先训练的扩散以及包括初始配对样品优化的渐进训练管道以及随后的大规模未配对的细化,Omn ...
随着LIDAR的感知范围的扩展,基于激光雷达的3D对象检测将不断增加自动驾驶中的远距离感知。主流3D对象探测器通常会构建密集的特征图,在该图上,成本与感知范围是二次的,因此几乎无法扩展到远程设置。为了实现有效的远程检测,我们首先提出了称为FSD的完全稀疏对象检测器 ...
在这项工作中,我们旨在使用具有一组参数的单个加固学习代理来解决大量任务。一个关键的挑战是处理增加的数据和延长培训时间。我们已经开发了一种新的分布式代理Impala(重要的加权演员学习者体系结构),该架构不仅在单机器训练中更有效地使用资源,而且在不牺牲数据效率或资源利用率的情况下将其扩展到数千台机器 ...
关系三重提取是信息提取领域的基本任务,而基于表填充的有希望的框架最近引起了人们的关注,这是实体关系提取的潜在基线。但是,诸如冗余信息和不完整的三重识别之类的固有缺点仍然存在问题。为了应对这些挑战,我们提出了基于扩散模型(IPED)的关系三重提取的隐性观点,这是一种用于提取关系三元组的创新方法 ...
在这项工作中,我们探讨了新型神经网络体系结构的使用,Kolmogorov-Arnold网络(KANS)作为基于传感器的(特别是IMU)人类活动识别(HAR)的特征提取器。如果传统网络执行每个节点处的输入的参数加权总和,然后将结果馈入静态定义的非线性,则KANS在边缘上执行由B-Splines表示的非线性计算,导致每个节点,然后将输入总结在节点上。该系统没有学习权重,而是学习样条参数 ...
(llm)(llm)(llm)(ICL)能力,但与大多数有监督的微调re方法相比 ...