arxiv的文档

arxiv 南京

个性签名 ...

MAPLE: Multi-Agent Adaptive Planning with Long-Term Memory for Table Reasoning

基于桌子的问题回答需要当前LLM努力通过单通行推理而难以实现的复杂推理能力。现有的方法，例如经过思考的推理和问题分解，缺乏错误检测机制和丢弃解决问题的经验，与人类如何解决此类问题形成鲜明对比。在本文中，我们提出了Maple（具有长期记忆的多代理自适应计划），这是一个新颖的框架，通过在反馈驱动的循环中工作的专门认知剂模仿人类问题解决的框架 ...

0 0 0 0 2025/07/30 arXiv:2506.05813v1 wtyang

MooseAgent: A LLM Based Multi-agent Framework for Automating Moose Simulation

有限元方法（FEM）广泛用于工程和科学计算，但是其预处理，求解器配置和后处理阶段通常很耗时，需要专业知识。本文提出了一个自动解决方案框架，即MooSeagent，用于多物理模拟框架驼鹿，该框架将大规模的预训练语言模型（LLMS）与多代理系统结合在一起。该框架使用LLMS了解自然语言中用户描述的模拟要求，并采用任务分解和多轮迭代验证策略来自动生成驼鹿输入文件 ...

0 1 0 0 2025/07/30 arXiv:2504.08621v1 menghuaz

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

从文本或图像中创建沉浸式和可玩的3D世界仍然是计算机视觉和图形中的一个基本挑战。现有的世界一代方法通常分为两类：基于视频的方法，可提供丰富的多样性，但缺乏3D一致性和渲染效率，以及基于3D的方法，这些方法提供了几何学一致性，但在有限的培训数据和内存信息方面挣扎。为了解决这些局限性，我们提出Hunyuanworld 1 ...

0 0 0 0 2025/07/30 arXiv:2507.21809v1 wonglliam

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

尽管Frontier大型语言模型（LLMS）继续推动能力边界，但其部署仍局限于GPU驱动的云基础架构。我们使用SmallThinker挑战了这个范式，该范式是一个本地设备的独特限制：弱计算能力，有限的内存和缓慢的存储空间的独特限制。与主要压缩为云建立的现有模型的传统方法不同，我们从头到尾构建了Smallthinker，直至在这些限制内蓬勃发展 ...

0 1 1 2 2025/07/30 arXiv:2507.20984v1 jszhudl

MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

科学推理对于发展AI科学家和支持人类研究人员推进自然科学发现的前沿至关重要。但是，开源社区主要集中于数学和编码，同时忽略了科学领域，这在很大程度上是由于缺乏开放的大型，高质量的，可验证的科学推理数据集。为了弥合这一差距，我们首先介绍了文本策划，这是一个开放数据集，其中包含从12K大学级的科学教科书中提取的真实参考答案，其中包括650k的推理问题，涵盖了7个科学学科 ...

0 0 0 0 2025/07/30 arXiv:2507.16812v1 manlinghun

Scaling Trends for Data Poisoning in LLMs

当在包含一小部分中毒数据的数据集上训练时，LLM会产生有害和不希望的行为。我们证明，即使在适度系统保护的情况下，GPT模型仍然容易受到毒数据的微调。鉴于数据中毒漏洞在当今最有能力的模型中的持久性，本文研究了这些风险是否随模型缩放而增加 ...

0 0 0 0 2025/07/30 arXiv:2408.02946v6 jiaochenchen

THREAD: Thinking Deeper with Recursive Spawning

大型语言模型（LLM）在各种环境中表现出了令人印象深刻的能力，但随着上下文的长度和复杂性的增加，仍在挣扎。为了应对这一挑战，我们递归，动态地提出思考（线程）。线程帧模型生成作为执行线程，基于上下文，可以运行到完成或动态产生新线程 ...

0 0 1 3 2025/07/30 arXiv:2405.17402v1 waterfall666

B-VLLM: A Vision Large Language Model with Balanced Spatio-Temporal Tokens

最近，与视觉编码器集成的大型语言模型（VLLM）在视力理解中表现出了有希望的表现。 VLLM的关键是将视觉内容编码为视觉 Token 序列，使VLLMS能够同时处理视觉和文本内容。但是，了解视频，尤其是长时间的视频，对于VLLM的挑战仍然是一个挑战，因为在编码视频时，视觉 Token 的数量迅速增长，从而导致超出VLLMS上下文窗口并引入重型计算负担的风险 ...

0 0 0 0 2025/07/30 arXiv:2412.09919v1 JackWang

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

在动态环境中协调多种体现的代理仍然是人工智能中的核心挑战，需要感知驱动的推理和可扩展的合作策略。尽管最近的作品利用大型语言模型（LLM）进行多代理计划，但一些人已经开始探索视觉模型（VLMS）进行视觉推理。但是，这些基于VLM的方法在支持各种实施方案类型方面仍然有限 ...

0 0 0 0 2025/07/30 arXiv:2506.09049v1 JackWang

Easi3R: Estimating Disentangled Motion from DUSt3R Without Training

DUST3R的最新进展已实现了对静态场景的密集点云和摄像头参数的强大估计，利用 Transformer 网络架构并在大规模3D数据集中进行直接监督。相反，可用4D数据集的有限规模和多样性提出了一个主要的瓶颈，用于训练高度可推广的4D模型。该约束具有传统的4D方法，可在可扩展的动态视频数据上微调3D模型，并具有其他几何学先验，例如光流和深度 ...

0 0 0 0 2025/07/30 arXiv:2503.24391v2 小小卡拉米