思想链(COT)生成的最新进展显着提高了大语言模型(LLMS)的推理能力,并作为一种有效的后培训方法出现了强化学习(RL)。多模式的大语言模型(MLLM)继承了这种推理潜力,但在需要感知和逻辑推理的任务中仍然没有反应。为了解决这个问题,我们介绍了Seed Bench-R1,这是一种基准,旨在系统地评估视频理解中MLLM的训练后方法 ...
0 0 0 2025/04/07 arXiv:2503.24376v1 iris
通过提出了更为良好的异常检测方法,许多单视任务已得到相对较好的程度。但是,实际生产场景通常涉及复杂的工业产品,其属性可能不会被一个图像完全捕获。虽然基于流动的方法在单摄像机方案中已经很好地工作,但他们目前却不利用多视图数据中的先验 ...
0 0 0 2025/04/07 arXiv:2504.03306v1 15261487245
大型语言模型(LLM)通常无法在不确定性下提出有效的问题,这使其在积极的信息收集对于决策至关重要的领域中不可靠。我们提出了Alfa,这是一个框架,通过(i)将“良好”问题的概念分解为一组理论基础属性(例如,例如, ...
0 0 0 2025/04/07 arXiv:2502.14860v1 leesongzero
在自主驾驶以进行感知任务时,越来越多地采用了激增和相机的融合。这种基于融合的算法的性能很大程度上取决于传感器校准的准确性,这是由于难以在不同数据方式上识别共同特征而具有挑战性的。以前,许多校准方法涉及特定目标和/或手动干预,事实证明这很麻烦且昂贵 ...
0 0 0 2025/04/07 arXiv:2311.15241v2 zack_zhangzh
我们介绍了Gaussim,这是一种基于神经网络的新型模拟器,旨在捕获通过高斯内核代表的现实弹性对象的动态行为。我们利用连续力学并将每个内核视为代表连续物质的质量系统(CMS)的中心(CMS),并考虑了没有理想化假设的逼真的变形。为了提高计算效率和忠诚度,我们采用了层次结构,该结构进一步将内核组织成具有明确配方的CMS,从而实现了粗到细节的模拟方法 ...
0 0 0 2025/04/07 arXiv:2412.17804v2 orangelcx
基于分解的多跳检索方法依赖于许多自回归步骤来分解复杂的查询,这破坏了端到端的不同性能,并且在计算上很昂贵。无分解方法可以解决此问题,但是当前的无分解方法在较长的多跳问题上遇到了艰难的问题,并概括了分布数据外的数据。为了应对这些挑战,我们介绍了Grithopper-7b,这是一种新型的多跳跃检索模型,可在分布和分布式基准的基准上实现最新的性能 ...
0 0 0 2025/04/07 arXiv:2503.07519v1 jwj5452365
从图像输入重建动态场景是具有许多下游应用程序的基本计算机视觉任务。尽管最近进步,但现有的方法仍然很难从看不见的观点和时间戳获得高质量的重建。这项工作介绍了复制框架,该框架旨在通过将变形先验纳入动态重建模型中来提高重建质量 ...
0 0 0 2025/04/07 arXiv:2411.00705v2 orangelcx
行人探测器的设计很少考虑此任务的独特特征,通常遵循通用对象检测的常见策略。为了探索这些特征的潜力,我们以行人数据集中的透视效果为例,并提出平均身高辅助抑制以进行后处理。该方法拒绝预测,即与平均水平相比,含有任何行人或高度异常的可能性下降的水平下降 ...
0 0 0 2025/04/07 arXiv:2408.13646v1 武切维奇五千万

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)