我们提出Free4D,这是一个从单个图像中为4D场景生成的新颖无调框架。现有的方法要么关注对象级生成,使场景级别的生成不可行,要么依靠大规模的多视频视频数据集进行昂贵的培训,并且由于4D场景数据的稀缺性而具有有限的概括能力。相比之下,我们的主要见解是将预先训练的基础模型提取为一致的4D场景表示,该模型具有有希望的优势,例如效率和概括性 ...
0 0 0 2025/05/29 arXiv:2503.20785v1 小小卡拉米
大型语言模型(LLMS)表现出了出色的功能,以高度计算要求。最近的研究表明,LLMS中的中间层可以被删除或重新排序而无需大量准确性损失。但是,尚未利用这种见解来提高推论效率。利用观察到的层独立性,我们提出了一种新颖的方法,该方法将连续的层分为并联评估的对,有效地重组计算图以增强并行性 ...
0 0 0 2025/05/29 arXiv:2502.02790v2 yli
语言模型校准是指模型的置信度与其响应的实际性能之间的一致性。虽然之前的研究指出了大型语言模型 (LLM) 中的过度自信现象,并表明经过人类反馈强化学习 (RLHF) 训练的 LLM 对更尖锐的输出概率过于自信,但在本研究中,我们发现 RLHF 往往会领先于模型表达对自己的反应的言语上的过度自信。我们调查了这种过度自信的根本原因,并证明用于近端策略优化(PPO)的奖励模型表现出对高置信度分数的固有偏 ...
0 0 0 2025/05/29 arXiv:2410.09724v2 arthas
光流随着时间的推移捕获图像序列中像素的运动,提供有关运动,深度和环境结构的信息。飞行的昆虫利用这些信息来导航并避免障碍,即使在复杂的环境中,它们也可以执行高度敏捷的动作。尽管具有潜力,但自主飞行机器人尚未充分利用此运动信息来达到可比的敏捷性和鲁棒性水平 ...
0 0 0 2025/05/29 arXiv:2411.04413v2 熊猫猫猫猫
大型推理语言模型(LRLMS)的最新进展依赖于测试时间缩放,这扩展了长期的经营链(COT)生成以解决复杂的任务。但是,长期以来,长期以来的思考不仅会减慢解决问题的效率,而且由于非常详细或冗余的推理步骤而导致的准确性损失有风险。我们提出了一种简单而有效的方法,该方法允许LLMS通过生成期间的早期出口来自我截断COT序列 ...
0 0 0 2025/05/29 arXiv:2504.15895v2 jueli
最近的研究表明,学习有意义的内部表示既可以加速生成训练,又可以提高扩散 Transformer 的发电质量。但是,现有方法需要引入其他复杂的表示培训框架,或者依靠大规模的,预先训练的代表基础模型来在原始生成培训过程中提供代表指导。在这项研究中,我们认为扩散 Transformer 固有的独特判别过程使他们能够提供此类指导而无需外部表示组件 ...
0 0 0 2025/05/29 arXiv:2505.02831v4 nmmmml
文本对图像扩散模型在生成和编辑高质量图像方面已取得了重大进步。结果,许多方法探索了扩散模型特征理解和处理下游任务的单个图像的能力,例如 ...
0 0 0 2025/05/29 arXiv:2305.15347v2 assvga
通过可验证的,基于规则的奖励的增强学习的最新进展极大地增强了VLMS/LLM的推理能力和分布式概括,从而消除了需要手动制作的推理链的需求。尽管在一般领域中有这些有希望的发展,但它们向医学成像的转化仍然有限。当前的医疗加强微调(RFT)方法主要集中在近端VQA上,从而限制了该模型参与世界知识检索和灵活的任务适应的能力 ...
0 0 0 2025/05/29 arXiv:2505.19213v1 dm616703

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)