全双工交互对于自然人机通信至关重要,但仍然具有挑战性,因为它需要强大的轮流检测来决定系统何时应该说话、倾听或保持沉默。现有的解决方案要么依赖于专用的轮流模型,其中大多数不是开源的。少数可用的方法受到参数大小较大或仅支持单一模态(例如声学或语言学)的限制。或者,一些方法可以微调 LLM 主干以实现全双工功能,但这需要大量的全双工数据,而这些数据在开源形式中仍然稀缺。为了解决这些问题,我们提出了 Easy Turn,这是一种开源、模块化的轮流检测模型,它集成了声学和语言双模态信息来预测四种对话轮流状态:完整、不完整、反向通道和等待,同时发布了 Easy Turn 训练集,这是一个专为训练轮流检测模型而设计的 1,145 小时语音数据集。与 TEN TurnDetection 和 Smart Turn V2 等现有开源模型相比,我们的模型在开源 Easy Turn 测试集上实现了最先进的轮流检测精度。数据和模型将在 GitHub 上公开 ...

0 0 0 0 2026/01/11 arXiv:2509.23938v1 Du

智能家居设备的激增增加了控制和管理它们的复杂性,导致用户疲劳。在此背景下,大语言模型 (LLM) 通过为物联网 (IoT) 控制提供自然语言接口,提供了一种有前景的解决方案。然而,由于 LLM 的不确定性、高推理延迟和成本以及有限的个性化,现有的基于 LLM 的方法面临着不可靠和低效的设备控制。为了应对这些挑战,我们推出了 IoTGPT,这是一种基于 LLM 的智能家居代理,旨在以可靠、高效和个性化的方式执行物联网命令。受人类如何管理复杂任务的启发,IoTGPT 将用户指令分解为子任务并记住它们。通过重用学习到的子任务,可以通过更少的 LLM 调用更有效地处理后续指令,从而提高可靠性并减少延迟和成本。 IoTGPT 还通过根据用户偏好调整各个子任务来支持细粒度的个性化。我们的评估表明,IoTGPT 在准确性、延迟/成本和个性化方面优于基准,同时减少了用户工作负载 ...

0 0 0 0 2026/01/11 arXiv:2601.04680v1 york19840220

语言代理越来越需要一个持久的世界,让他们能够在其中行动、记忆和学习。现有方法处于两个极端:传统的 Web 框架提供由数据库支持的可靠但固定的上下文,而完全生成的世界模型旨在以牺牲可控性和实际工程为代价实现无限的环境。在这项工作中,我们介绍了网络世界模型(WWM),这是一个中间地带,世界状态和“物理”在普通网络代码中实现,以确保逻辑一致性,而大型语言模型则在此结构化潜在状态之上生成上下文、叙述和高级决策。我们在现实的网络堆栈上构建了一套 WWM,包括基于真实地理的无限旅行地图集、虚构的星系探险家、网络规模的百科全书和叙事世界,以及模拟和游戏般的环境。在这些系统中,我们确定了 WWM 的实用设计原则:将代码定义的规则与模型驱动的想象分开,将潜在状态表示为类型化的 Web 界面,并利用确定性生成来实现无限但结构化的探索。我们的结果表明,网络堆栈本身可以作为世界模型的可扩展基础,从而实现可控但开放的环境。项目页面:此 https URL ...

0 0 0 0 2026/01/11 arXiv:2512.23676v1 dropout

下一代无线网络旨在为不同场景提供可靠、高数据速率的通信服务,例如车对车、无人机和卫星网络。底层时变信道中严重的多普勒扩展会在广泛采用的正交频分复用 (OFDM) 波形中引起破坏性的载波间干扰 (ICI),从而导致严重的性能下降。这就需要一种新的空中接口设计,能够适应高动态信道中严重的延迟多普勒扩展,同时拥有足够的灵活性来满足各种应用的需求。本文全面概述了一种有前景的基于线性调频脉冲的波形,即仿射频分复用 (AFDM)。它具有两个可调参数,并在双色散信道(DDC)中实现最佳分集顺序。我们研究了 AFDM 的基本原理,说明了它对 DDC 的内在适用性。在此基础上,探索了 AFDM 的几个潜在应用。此外,还提出了 AFDM 的主要挑战和相应的解决方案,以及未来的几个研究方向。最后,我们对AFDM得出了一些有指导意义的结论,希望为其发展提供有益的启发 ...

0 0 0 0 2026/01/11 arXiv:2502.04735v1 xhLi

客户对机器人和增强现实智能解决方案的需求不断增长,引起了对点云 3D 物体检测的广泛关注。然而,现有的单独室内数据集太小且多样性不足,无法训练强大且通用的 3D 物体检测模型。与此同时,利用基础模型的更通用的方法在质量上仍然不如基于特定任务的监督训练的方法。在这项工作中,我们提出了 \ours{},一种简单而有效的 3D 对象检测模型,该模型在混合室内数据集上进行训练,并且能够在各种室内环境中工作。通过统一不同的标签空间,\ours{} 能够通过监督联合训练方案学习跨多个数据集的强表示。所提出的网络架构建立在普通 Transformer 编码器的基础上,使其易于运行、定制和扩展预测管道以供实际使用。大量实验表明,我们的{}在 6 个室内基准测试中比现有 3D 物体检测方法取得了显着的进步:ScanNet (+1.1 mAP50)、ARKitScenes (+19.4 mAP25)、S3DIS (+9.1 mAP50)、MultiScan (+9.3 mAP50)、3RScan (+3.2 mAP50) 和 ScanNet++ (+2.7 mAP50)。代码可在此 https URL 获取 ...

0 0 0 0 2026/01/11 arXiv:2409.04234v1 王辉

大型语言模型 (LLM) 已将其功能扩展到语言生成之外,以与外部工具交互,从而实现自动化和实际应用程序。然而,工具幻觉(即模型选择不合适的工具或误用它们)带来了重大挑战,导致错误的任务执行、计算成本增加和系统可靠性降低。为了系统地解决这个问题,我们将工具幻觉定义和分类为两种主要类型:工具选择幻觉和工具使用幻觉。为了评估和缓解这些问题,我们引入了 RelyToolBench,它集成了专门的测试用例和新颖的指标来评估幻觉感知任务的成功和效率。最后,我们提出了 Relign,这是一个可靠性调整框架,它扩展了工具使用行动空间,以包括犹豫不决的行动,允许 LLM 推迟工具使用、寻求澄清或动态调整工具选择。通过大量实验,我们证明 Relig 显着减少了工具幻觉,提高了任务可靠性,并提高了 LLM 工具交互的效率 ...

0 0 0 0 2026/01/11 arXiv:2412.04141v3 robo_bin

利用大型语言模型(LLM)进行生成推荐引起了人们极大的研究兴趣,其中项目标记化是关键的一步。它涉及为 LLM 分配项目标识符以对用户历史记录进行编码并生成下一个项目。现有方法利用 Token 序列标识符(将项目表示为离散 Token 序列)或单 Token 标识符(使用 ID 或语义嵌入)。 Token 序列标识符面临诸如波束搜索中的局部最优问题以及由于逐步生成而产生的低生成效率等问题。相反,单 Token 标识符无法捕获丰富的语义或对协作过滤(CF)信息进行编码,从而导致性能不佳。为了解决这些问题,我们提出了项目标识符设计的两个基本原则:1)集成CF和语义信息以充分捕获多维项目信息,2)设计无 Token 依赖的顺序无关标识符,减轻局部最优问题并实现同时生成以提高生成效率。因此,我们为基于 LLM 的生成推荐引入了一种新颖的集合标识符范例,将每个项目表示为一组与顺序无关的标记。为了实现这个范例,我们提出了 SETRec,它利用 CF 和语义标记器来获取与顺序无关的多维标记。为了消除 Token 依赖性,SETRec 使用稀疏注意掩码进行用户历史编码,并使用查询引导的生成机制来同时生成 Token 。我们在T5和Qwen上实例化SETRec(从1.5B到7B)。大量的实验证明了其在各种场景下的有效性(例如,完整排名、热启动和冷启动排名以及各种项目流行度组)。此外,结果验证了 SETRec 的卓越效率,并显示出随着模型大小的增加,冷启动项目具有良好的可扩展性 ...

0 0 0 0 2026/01/11 arXiv:2502.10833v2 charles

多模态大语言模型(MLLM)在视觉语言导航(VLN)中显示出巨大的潜力。然而,大量的培训费用严重阻碍了它们的实际发展。我们认识到导致开销的两个关键问题:(1)将长期历史观察结果处理为大量标记序列所带来的二次计算负担,以及(2)DAgger 中的探索效率权衡,即收集代理探索轨迹的数据聚合过程。虽然更多的探索可以产生有效的错误恢复轨迹来处理测试时间分布变化,但它是以训练和推理的轨迹长度更长为代价的。为了应对这些挑战,我们提出了 Efficient-VLN,一种训练高效的 VLN 模型。具体来说,为了减轻 Token 处理负担,我们设计了两种有效的内存机制:渐进式内存,为最近的观察动态分配更多 Token ,以及可学习递归内存,利用可学习 Token 的键值缓存作为内存状态。此外,我们引入了动态混合政策来平衡勘探效率的权衡。大量实验表明,Efficient-VLN 在 R2R-CE (64.2% SR) 和 RxR-CE (67.0% SR) 上实现了最先进的性能。至关重要的是,我们的模型仅消耗 282 H800 GPU 小时,这表明与最先进的方法相比,训练开销显着减少 ...

0 0 0 0 2026/01/11 arXiv:2512.10310v1 jesson

新词感知机器翻译旨在将包含新词的源句子翻译成目标语言。与一般机器翻译 (MT) 相比,该领域仍未得到充分探索。在本文中,我们提出了一个代理框架 NeoAMT,用于使用维基词典搜索工具进行新词感知机器翻译。具体来说,我们首先为新词感知机器翻译创建一个新的数据集,并开发一个基于维基词典的搜索工具。新数据集涵盖 16 种语言和 75 个翻译方向,源自英语维基词典转储的约 1000 万条记录。该搜索工具的检索语料库也是根据维基词典转储的约 300 万条经过清理的记录构建的。然后,我们用它来通过强化学习(RL)来训练翻译代理,并评估新词感知机器翻译的准确性。基于此,我们还提出了一个 RL 训练框架,其中包含新颖的奖励设计和自适应推出生成方法,通过利用“翻译难度”来进一步提高使用我们的搜索工具的翻译代理的翻译质量 ...

0 0 0 0 2026/01/10 arXiv:2601.03790v1 ChenSF1998

图像文本表示学习形成了视觉语言模型的基石,其中成对的图像和文本描述在共享嵌入空间中对比对齐。由于视觉和文本概念自然是分层的,最近的工作表明,双曲空间可以作为学习具有强大下游性能的视觉语言表示的高潜力流形。在这项工作中,我们首次展示了如何通过超越单个图像-文本对来充分利用双曲嵌入的固有层次性质。我们提出了用于双曲视觉语言模型的组合蕴涵学习。这个想法是,图像不仅由句子描述,而且本身是多个对象框的组合,每个对象框都有自己的文本描述。通过从句子中提取名词并使用公开可用的本地化基础模型可以免费获得此类信息。我们展示了如何通过对比和基于蕴涵的目标来分层组织图像、图像框及其文本描述。对用数百万个图像-文本对训练的双曲视觉语言模型进行的实证评估表明,所提出的组合学习方法优于传统的欧几里得 CLIP 学习以及最近的双曲替代方案,具有更好的零样本和检索泛化以及明显更强的层次性能 ...

0 0 0 0 2026/01/10 arXiv:2410.06912v2 13766783701