部署在动态环境中的机器人不仅必须遵循各种语言说明,而且在用户意图中期执行中更改时会灵活适应。尽管最近的视觉语言动作(VLA)模型具有高级的多任务学习和指令,但他们通常会假定静态任务意图,在持续执行期间新说明到达时未能做出响应。这种限制阻碍了在动态环境(例如零售或家庭环境)中的自然和强大的相互作用,在零售或家庭环境中,实时意图变化很常见 ...
0 0 0 2025/06/05 arXiv:2506.03574v1 蔡明方
本文研究了使用增强学习(RL)增强大语言模型(LLM)代理的推理能力的方法。具体而言,我们专注于多转弯工具使用的方案,可以自然地将其建模为马尔可夫决策过程(MDP)。尽管现有的方法经常在强盗设置中对轨迹级优势估算进行多转弯LLM代理进行训练,但他们在多个决策步骤中为转向级的信用分配而苦苦挣扎,从而将其在多转弯推理任务上的绩效限制了 ...
0 0 0 2025/06/05 arXiv:2505.11821v1 leesongzero
最近生成自然语言解释不仅在提供可解释的解释方面表现出非常有希望的结果,而且还提供了其他信息和预测的监督。但是,现有的方法通常需要大量的人类注释的解释来进行培训,同时收集大量解释不仅耗时,而且很昂贵。在本文中,我们为可解释的自然语言理解开发了一个通用框架,该框架仅需要一小部分人注释的培训解释 ...
0 0 0 2025/06/04 arXiv:2011.05268v3 18971205188
在本文中,我们通过根据自我发作机制捕获丰富的上下文依赖性来解决场景细分任务。与以前通过多尺度功能融合捕获上下文的作品不同,我们建议一个双重注意网络(DANET)将本地特征及其全球依赖性自适应地整合在一起。具体而言,我们在传统扩张的FCN之上附加了两种类型的注意模块,它们分别对空间和信道维度的语义相互依赖性进行了建模 ...
0 0 0 2025/06/04 arXiv:1809.02983v4 24601
在生产中,多模态大语言模型(MLLM)有望支持互换图像和文本模态的多轮查询。然而,当前使用视觉问答(VQA)数据集训练的 MLLM 可能会出现退化,因为 VQA 数据集缺乏训练底层语言模型的原始文本指令数据集的多样性和复杂性。为了解决这种具有挑战性的退化问题,我们首先收集一个轻量级(6k 条目)VQA 偏好数据集,其中 Gemini 以细粒度方式对 5 个质量指标的答案进行注释,并研究标准监督微调 ...
0 0 0 2025/06/04 arXiv:2402.10884v2 baibaili
检索演出的一代(RAG)在开放域问答中表现出在任务之间的出色表现。但是,传统的搜索引擎可能会检索浅含量,从而限制了LLM处理复杂的多层信息的能力。为了解决这个问题,我们介绍了WebWalkerQA,这是一种基准测试,旨在评估LLMS执行Web遍历的能力 ...
0 0 0 2025/06/04 arXiv:2501.07572v2 lrklnyk
扩散模型在视频生成领域取得了显着进步。但是,它们的迭代性化性质需要大量的推理步骤来生成一个较慢且计算昂贵的视频。在本文中,我们从对现有扩散蒸馏方法中存在的挑战的详细分析开始,并提出了一种新颖的有效方法,即AccVideo,以减少使用合成数据集加速视频扩散模型的推理步骤 ...
0 0 0 2025/06/04 arXiv:2503.19462v1 zhangxinyu
在基于NLP的教育技术中,自动产生与教育目标保持一致的高质量数学问题。传统的一代方法主要关注文本质量,但它们经常忽略教育目标。此外,这些方法仅解决单一的简单问题生成,无法满足复杂的多方面教育要求 ...
0 0 0 2025/06/04 arXiv:2506.00963v1 瓶子

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)