arxiv的文档

arxiv 南京

个性签名 ...

Harnessing Large Language Models for Curated Code Reviews

在代码审查中，生成结构化且相关的注释对于识别代码问题和促进准确的代码更改至关重要，从而确保高效的代码审查过程。精心设计的注释不仅简化了代码审查本身，而且对于代码细化等后续任务也至关重要，其中代码被修改以满足输入的审查注释。尽管各种基于人工智能的方法旨在自动生成评论，但其有效性仍然受到训练数据质量的限制 ...

0 0 0 0 2025/10/26 arXiv:2502.03425v1 JanneyAnne

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

大型语言模型（LLM）（例如Openai的O1）通过扩展测试时间计算并表现出类似人类的深思熟虑，在复杂的推理任务中表现出了非凡的能力。但是，我们确定了我们所认为的一种现象，其中类似于O1的LLM经常在不同的推理思想之间切换，而没有足够的探索有希望的路径以达到正确的解决方案。这种行为导致推理深度不足和表现降低，尤其是在具有挑战性的数学问题上 ...

0 0 0 0 2025/10/26 arXiv:2501.18585v2 hxh123

Robult: Leveraging Redundancy and Modality Specific Features for Robust Multimodal Learning

解决缺失的模式和有限的标记数据对于推进稳健的多模式学习至关重要。我们提出了 Robult，这是一个可扩展的框架，旨在通过保留特定于模态的信息并通过新颖的信息论方法利用冗余来缓解这些挑战。 Robot 优化了两个核心目标：(1) 软正未标记 (PU) 对比损失，可最大限度地提高与任务相关的特征对齐，同时在半监督设置中有效利用有限的标记数据；(2) 潜在重建损失，可确保保留独特的模态特定信息 ...

0 0 0 0 2025/10/26 arXiv:2509.03477v1 zy_

SpecASR: Accelerating LLM-based Automatic Speech Recognition via Speculative Decoding

基于大语言模型（LLM）的自动语音识别（ASR）由于其高识别精度和增强的多方言支持而最近引起了广泛关注。然而，LLM 的高解码延迟对实时 ASR 要求提出了挑战。尽管人们已经探索了推测解码来提高解码效率，但它们通常忽略了 ASR 任务的关键特征，并且实现的加速有限 ...

0 0 0 0 2025/10/26 arXiv:2507.18181v2 18811558339

Leveraging Time-Series Foundation Model for Subsurface Well Logs Prediction and Anomaly Detection

能源需求的增长凸显了适当的地下储存的重要性，需要详细而准确的地下特征描述，而这些特征通常依赖于高质量的钻孔测井数据。然而，获得完整的测井数据既昂贵又耗时，并且由于井眼条件或工具错误而导致数据丢失的情况很常见。虽然机器学习和深度学习算法已经被用来解决这些问题，但它们通常无法捕获复杂测井序列中错综复杂的非线性关系和长期依赖性 ...

0 0 1 1 2025/10/26 arXiv:2412.05681v1 wang3076

Understanding black hole evaporation using explicitly computed Penrose diagrams

为黑洞形成和蒸发的经典模型绘制了明确计算的彭罗斯图，其中黑洞是通过物质球壳的坠落而形成的，随后通过发射霍金辐射的球壳而蒸发。该模型基于已知的半经典效应，但不是半经典引力的完整解。该方法允许 $ds^2=-f(r)\,dt^2+f(r)^{-1}\,dr^2+r^2\,d\Omega^2$ 形式的任意内部度量，包括奇异和非奇异模型 ...

0 0 0 0 2025/10/26 arXiv:1907.04879v3 朝暮颜

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

最近，利用预先训练的视觉语言模型（VLM）来建筑视觉语言行动（VLA）模型已成为有效的机器人操纵学习的有前途的方法。但是，只有很少的方法将3D信号纳入VLMS进行动作预测，并且它们不能完全利用3D数据中固有的空间结构，从而导致样品效率较低。在本文中，我们介绍了BridgeVla，这是一种新颖的3D VLA模型，该模型（1）将3D输入投影到多个2D图像，确保输入与VLM骨架的输入对齐，（2）利用2D热图进行动作预测，统一输入和输出空间一致的2D图像空间 ...

0 0 0 0 2025/10/26 arXiv:2506.07961v2 kkkkk

The Safety Challenge of World Models for Embodied AI Agents: A Review

实体人工智能的快速进步凸显了需要更先进、更集成的模型来感知、解释和预测环境动态。在此背景下，世界模型（WM）被引入，为实体智能体提供预测未来环境状态并填补知识空白的能力，从而增强智能体计划和执行行动的能力。然而，在处理具体代理时，确保预测对代理和环境都是安全的至关重要 ...

0 0 0 0 2025/10/25 arXiv:2510.05865v1 l770458802

Gradient-based Local Next-best-view Planning for Improved Perception of Targeted Plant Nodes

机器人越来越多地用于番茄温室，以实现选择性收获和除叶等劳动密集型任务的自动化。为了执行这些任务，机器人必须能够准确有效地感知需要切割的植物节点，尽管其他植物部分的遮挡程度很高。我们将此问题表述为局部次佳视图（NBV）规划任务，其中机器人必须规划一组有效的相机视点以克服遮挡并提高感知质量 ...

0 0 0 0 2025/10/25 arXiv:2311.16759v2 zy1111

Adams Bashforth Moulton Solver for Inversion and Editing in Rectified Flow

整流流模型在图像和视频生成任务中取得了显着的性能。然而，现有的数值求解器面临快速采样和高精度解决方案之间的权衡，限制了它们在重建和编辑等下游应用中的有效性。为了应对这一挑战，我们建议利用 Adams-Bashforth-Moulton (ABM) 预测校正器方法来提高修正流模型中 ODE 求解的准确性 ...

0 0 0 0 2025/10/25 arXiv:2503.16522v1 iiwdg