arxiv的文档

arxiv 南京

个性签名 ...

Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

在本报告中，我们介绍了Falcon-H1，这是一系列新的大型语言模型（LLMS），其中包含针对各种用例的高性能和效率优化的混合体系结构设计。与较早的Falcon模型不同，Falcon-H1采用了一种平行的混合方法，将基于 Transformer 的注意力与状态空间模型（SSM）相结合，该方法以较高的长篇小说内存和计算效率而闻名。我们系统地重新审视了模型设计，数据策略和培训动态，并挑战了该领域的常规实践 ...

0 0 0 0 2025/08/09 arXiv:2507.22448v1 odenkkk

GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision

3D占用感知通过将环绕图像转换为密集的3D网格中的集成几何和语义表示，在最近以视觉为中心的自动驾驶系统中起着关键作用。然而，当前的模型仍然遇到两个主要挑战：在2d-3d视图转换阶段准确建模深度，并克服了由于稀疏的激光雷达监督而导致的普遍性问题。为了解决这些问题，本文介绍了GEOCC，这是一种针对仅视觉环境视觉感知的几何增强的占用网络 ...

0 0 0 0 2025/08/09 arXiv:2405.10591v2 chenhualin

Alpha-SQL: Zero-Shot Text-to-SQL using Monte Carlo Tree Search

文本到SQL可以使自然语言与数据库进行自然的互动，它是各种行业的关键方法。每隔几个月就会出现新的，更强大的大型语言模型（LLMS），因此微调变得非常昂贵，劳动力密集且容易出错。作为另一种零照片的文本到SQL，它利用了在没有特定于任务的微调的情况下在LLM中编码的知识和推理能力的越来越多，提出了一个有希望且更具挑战性的方向 ...

0 0 0 0 2025/08/09 arXiv:2502.17248v2 zkq

MemInsight: Autonomous Memory Augmentation for LLM Agents

大型语言模型（LLM）代理已经演变为智能处理信息，做出决策并与用户或工具互动。关键能力是长期记忆能力的整合，使这些代理能够利用历史互动和知识。但是，记忆的规模不断增长，对语义结构的需求构成了重大挑战 ...

0 0 0 0 2025/08/09 arXiv:2503.21760v2 Likeforeverx

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

尽管人类可以灵活地利用交互式的视觉认知来解决复杂的问题解决方案，从而使大型视觉模型（LVLMS）使用视觉工具学习类似的适应性行为仍然很具有挑战性。一个重大障碍是目前缺乏标准化的基础架构，这阻碍了整合多种工具，生成丰富的交互数据和有效培训稳定的代理。为了解决这些差距，我们介绍了OpenthInkimg，这是第一个开源，全面的端到端端到端框架，用于工具增强的LVLM ...

0 0 0 0 2025/08/09 arXiv:2505.08617v2 15766388315

On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

自引入以来，SoftMax的注意力已成为现代 Transformer 体系结构的骨干，这是由于其在各种任务中的表现力和可扩展性。但是，SoftMax注意的主要缺点是相对于序列长度的二次记忆要求和计算复杂性。通过替换SoftMax的非线性，引入了线性注意力和类似的方法，以避免使用SoftMax的二次瓶颈 ...

0 0 0 0 2025/08/09 arXiv:2507.23632v1 odenkkk

DreamGen: Unlocking Generalization in Robot Learning through Video World Models

我们介绍了Dreamgen，这是一条简单而高效的四阶段管道，用于培训机器人策略，通过神经轨迹跨越行为和环境 - 由视频世界模型生成的合成机器人数据。 Dreamgen利用最先进的图像到视频生成模型，将其调整到目标机器人体现中，以在不同环境中生成熟悉或新颖任务的感性合成视频。由于这些模型仅生成视频，因此我们使用潜在的动作模型或逆动力学模型（IDM）恢复伪动作序列 ...

0 0 0 0 2025/08/09 arXiv:2505.12705v2 Gary_huang

MotionGPT3: Human Motion as a Second Modality

尽管多模型模型的最新进展表现出了统一的理解和产生的强大能力和机会，但统一运动语言模型的发展仍然没有得到充实。为了使这种具有高保真性人类运动的模型，必须解决两个核心挑战。第一个是以自回归方式的连续运动方式和离散表示之间的重建差距，第二个是在统一培训期间语言智能的退化 ...

0 0 0 0 2025/08/09 arXiv:2506.24086v1 kevinson

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

现代视觉模型（VLM）可以解决需要视觉推理的各种任务。在实际情况下，VLM的理想属性包括快速推理和可控生成（例如， ...

0 0 0 0 2025/08/09 arXiv:2505.16839v3 JackWang

Attention-based Reinforcement Learning for Combinatorial Optimization: Application to Job Shop Scheduling Problem

车间调度问题是组合优化问题的重要方面，传统上是通过精确或近似解决方案方法来解决的。但是，由于实际问题的复杂性，这些解决方案的实际应用通常受到挑战。即使利用近似解决方案方法，识别近乎最佳解决方案所需的时间也可以过于广泛，并且得出的解决方案通常不适用于新问题 ...

0 0 0 0 2025/08/08 arXiv:2401.16580v2 plum