视觉语言大型模型在各种多模式任务中取得了巨大的成功,但是由于视频数据的固有复杂性和计算需求,将它们应用于视频理解仍然具有挑战性。尽管基于培训的视频LLM提供高性能,但他们通常需要大量资源进行培训和推理。相反,无训练方法通过在没有额外培训的情况下调整预先训练的图像-LLMS模型来提供更有效的替代方法,但是由于视频框架产生了大量的视觉 Token ,它们会面临推理效率瓶颈 ...
0 0 0 2025/04/22 arXiv:2410.10441v2 麦兜
机器人技术和增强现实(AR)的整合为提高可用性,直觉和可访问性提供了推进人类机器人互动(HRI)的变革机会。这项工作引入了无控制器,由LLM驱动的语音命令伪装系统,使用户可以实时操纵其虚拟对应物,从而使用户能够对机器人进行操作。通过利用自然语言处理(NLP)和AR技术,我们的系统 - 使用Meta Quest 3进行了原型 - 消除了对物理控制器的需求,增强了易用性,同时最大程度地降低了与直接机器 ...
0 0 0 2025/04/22 arXiv:2502.09142v1 万类霜天
自从 LLM 出现以来,将自然语言查询转换为结构化 SQL 命令的情况正在增加。与之前的评论不同,本次调查全面研究了基于 LLM 的文本到 SQL 系统的演变,从早期基于规则的模型到高级 LLM 方法,以及 LLM 如何影响该领域。我们讨论基准、评估方法和评估指标 ...
0 0 0 2025/04/22 arXiv:2410.01066v2 zkq
时间知识图(TKG)推理具有两个设置:插值推理和外推理。他们俩都引起了很多研究兴趣,并且具有重要意义。前者的方法强调事实序列之间的时间相关性,而后者的方法则需要严格的年代知识顺序,而忽略了过去缺失的事实所提供的推断线索 ...
0 0 0 2025/04/22 arXiv:2405.18106v1 Abidalswark
边缘计算越来越多地被提出作为减少运行同步定位和建图(allam)算法的移动设备资源消耗的解决方案,大多数边缘辅助,大多数边缘辅助,或者依赖于基于启发式方法选择要传输到边缘的信息。本文介绍了,或者依赖于基于启发式方法选择要传输到边缘的信息。本文介绍了(v)(v)和视觉惯性(vi)slam系统,它基于我们开发的用于选择关键帧子集(代表帧,它基于我们开发的用于选择关键帧子集(代表帧)的理论基础方法,可适 ...
0 1 0 2025/04/22 arXiv:2301.04620v1 ypeng
基于内容的推荐系统在向数字世界中的用户传递个性化内容方面起着至关重要的作用。在这项工作中,我们介绍了Embsum,这是一个新颖的框架,可以在捕获用户参与历史记录中的互动时脱机预先计算用户和候选项目。通过利用验证的编码器模型和多意见层,eMbsum衍生了用户poly-ebedding(UPE)和内容poly-embedding(CPE)来计算用户和候选项目之间的相关性分数 ...
0 0 0 2025/04/22 arXiv:2405.11441v2 帅哥
Recsys Challenge 2024旨在通过解决设计有效和负责任的新闻发布系统固有的技术和规范挑战,来推进新闻建议。本文描述了挑战,包括其目标,问题设置以及丹麦新闻发布者Ekstra Bladet和JP/Politikens Media Group(“ Ekstra Bladet”)提供的数据集。挑战探索了新闻建议的独特方面,例如根据行为对用户偏好进行建模,考虑到新闻议程对用户兴趣的影响以及 ...
0 0 0 2025/04/22 arXiv:2409.20483v1 帅哥
生成的大语言模型(LLMS)在使用零拍和几乎没有学习的文本注释中显示出令人鼓舞的结果。然而,这些方法不允许模型保留以前的注释中的信息,从而使每个响应都独立于前面的响应。这就提出了一个问题,即模型内存 -  LLM是否对同一任务中的先前注释有所了解 - 会影响性能 ...
0 0 0 2025/04/22 arXiv:2503.04874v1 woodman

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)