变形金刚是当今大型语言模型(LLM)背后的推动力,是其性能和多功能性的基础。然而,它们的计算和内存成本随序列长度增长,对长篇小说推断带来了可伸缩性的挑战。 In response, the algorithm community is exploring alternative architectures, such as state space models (SSMs), linear attention, and recurrent neural networks (RNNs), which we refer to as post-transformers. ...
从随意捕获的无相机或人姿势信息的铰接主题图像中重建动画的3D人类是一项实用而又具有挑战性的任务,因为观察到的未对准,阻塞和缺乏结构性先验。虽然基于优化的方法可以产生单眼或多视图视频产生的高保真性,但它们需要准确的姿势估计和缓慢的迭代优化,从而限制了不受约束的场景中的可伸缩性。最近的前馈方法可实现有效的单像重建,但努力有效利用多个输入图像来降低歧义并提高重建精度 ...
检索演示的生成(RAG)是一种强大的方法,它使大型语言模型(LLMS)能够合并外部知识。但是,由于数据构建的高成本和缺乏合适的评估指标,评估抹布系统在专业场景中的有效性仍然具有挑战性。本文介绍了Rageval,这是一个框架,旨在通过基于模式的管道生成高质量的文档,问题,答案和参考来评估各种情况的破布系统 ...
在现代推荐系统中,重要的是要了解产品如何相互关系。例如,当用户正在寻找手机时,推荐其他手机可能是有意义的,但是一旦他们购买了手机,我们可能会想推荐电池,情况或充电器。这两种建议称为替代品和补充:替代品是可以购买的产品,而不是彼此购买的产品,而补充是可以购买的产品 ...
改善遥远3D对象的检测是一项重要但具有挑战性的任务。对于基于摄像机的3D感知,3D边界的注释在很大程度上依赖于LIDAR以获得准确的深度信息。因此,由于遥远的物体上的激光点的稀疏性,注释的距离通常受到限制,这阻碍了现有探测器在远程场景中的能力 ...
在许多研究领域,时空问题无处不在,至关重要。尽管深度学习方法已经在建模时空数据中已经证明了潜力,但典型的方法倾向于仅关注对要建模的输出变量的条件期望。在本文中,我们提出了一种多输出的多品质深度学习方法,用于共同对几个条件分位数进行建模以及条件期望,作为一种提供更完整的时空问题预测密度的“图片”的方式 ...
作为大语模型(LLMS)服务,对生成AI的需求不断增长,这促使人们需要优化计算效率和能耗的专业硬件体系结构。本文评估了第tenstorrent Grayskull E75 RISC-V加速器的性能,用于降低数值精度,这是LLM计算中的基本操作。我们介绍了Grayskull的执行模型,网格大小,矩阵维度,数据格式和数值精度影响计算效率的详细表征 ...
体现的场景理解不仅需要理解已经观察到的视觉空间信息,而且还需要确定在3D物理世界中下一个探索的位置。现有的3D视觉语言(3D-VL)模型主要集中在3D重建(例如网格和点云)的静态观察中的接地对象,但缺乏积极感知和探索其环境的能力。要解决此限制,我们介绍\下划线{\ textbf {m}} ove \ usewissline {\ textbf {t textbf {t}} o \ usewissline {\ textbf {u textbf {u}} nderstand(\ textbf {\ textbf {\ textbf {\ textbf {\ textbf),一个统一的框架,该框架与活跃的框架{\视觉学习,使体现的代理能够有效地探索和理解其环境 ...
我们专注于提高视觉理解能力,以增强视觉语言模型。我们提出了一种多模式模型\ TextBf {Arcana},它引入了两种至关重要的技术。首先,我们提出了多模式洛拉(MM-Lora),这是一个旨在增强解码器的模块 ...
最近的高级视觉模型(VLM)在被动,离线图像和视频理解任务上表现出了很强的表现。但是,它们在体现的设置中的有效性(需要在线互动和积极的场景理解仍然有限)仍然有限。在这种情况下,代理从第一人称角度看待环境,每个动作都会动态塑造随后的观察 ...