大型语言模型(LLM)通过赋予用户资料的广泛世界知识和卓越的推理能力,在推荐系统中表现出了巨大的希望。但是,LLM面临着诸如不稳定的指导依从性,模态差距和较高的推论延迟之类的挑战,导致文本噪声并限制了其在推荐系统中的有效性。为了应对这些挑战,我们建议使用及时调整来推断用户配置文件 ...
0 0 0 2025/09/23 arXiv:2408.06577v1 lala
视频会议应用程序面临着交通不断增长,以前所未有的方式强调其基础架构。本文重新考虑了会议基础架构的关键构件 - 选择性转发单元(SFU)。 SFUS继电器和适应参与者之间的媒体流,如今,在通用服务器上使用软件运行 ...
0 0 1 2025/09/23 arXiv:2503.11649v1 SimonHuang
已经开发了模棱两可的深度学习模型,以利用数据中的内在对称性,在某些情况下显示出显着的有效性。但是,这些方法通常会遭受有限的代表精度,并依赖于实践中可能不存在的严格对称假设。这些限制对于图像恢复任务构成了重要的缺点,这需要高精度和精确的对称表示 ...
0 0 0 2025/09/23 arXiv:2505.19799v1 chitose
训练后没有地面真相时,学习信号来自哪里?我们建议通过Compute作为教师(CAT)将探索转化为监督,该探索通过从一组平行的推出中综合单个参考,然后对其进行优化,将模型在推理时间的探索转换为无参考监督。具体而言,当前的政策会产生一组推广。冷冻的锚(初始政策)调解了遗漏和矛盾,以估算参考,将额外的推理时间计算变成教师信号。我们将其转变为两个制度的奖励:(i)可验证的任务在最终答案中使用程序化等效性; ...
0 0 0 2025/09/23 arXiv:2509.14234v1 ymx
单眼3D对象检测揭示了自动驾驶中经济但挑战性的任务。最近,基于中心的单眼方法在速度和准确性之间进行了巨大的权衡,它们通常取决于对象中心通过2D特征的深度估计。但是,没有足够像素几何信息的视觉语义特征,可能会影响空间3D检测任务的线索的性能 ...
0 0 0 2025/09/23 arXiv:2302.10549v1 火火火
说话的头合成是视频制作行业的一种有前途的方法。最近,在该研究领域已经大量精力来提高发电质量或增强模型的概括。但是,很少有工作能够同时解决这两个问题,这对于实际应用至关重要 ...
0 0 0 2025/09/22 arXiv:2301.03786v2 wuliu
通过将复杂的任务分解为更简单的顺序子任务,已广泛采用了经过思考链(COT)推理,以增强大型语言模型(LLMS)。但是,将COT扩展到视觉推理任务仍然具有挑战性,因为它通常需要解释视觉状态的过渡以支持推理。由于建模视觉状态过渡的能力有限或由零散的架构引起的视觉状态过渡或不连贯的视觉轨迹,现有方法通常会遇到困难 ...
0 0 0 2025/09/22 arXiv:2508.05606v2 Abidalswark
虽然大型多模态模型(LMM)在不同的任务中表现出了令人印象深刻的能力,但它们处理复杂任务的有效性受到流行的单步推理范式的限制。为此,本文提出了 VoCoT,这是一种多步骤、以视觉为基础、以对象为中心的思想链推理框架,专为 LMM 推理而设计。 VoCoT 具有两个关键特征:(1)以对象为中心的推理路径围绕跨模式共享对象级信息,以及(2)以多模式交错和对齐的方式对对象概念进行视觉基础的表示,这有效地 ...
0 0 2 2025/09/22 arXiv:2405.16919v3 Abidalswark

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)