MultiWOZ 是一个著名的面向任务的对话数据集,包含跨越 8 个领域的 10,000 多个带注释的对话。它被广泛用作对话状态跟踪的基准。然而,最近的工作报告了对话状态注释中存在大量噪音 ...

0 0 0 0 2024/05/19 arXiv:2007.12720v1 xx

近年来,面向任务的对话(TOD)模型取得了重大进展。然而,之前的研究主要集中在注释者编写的数据集上,这导致了学术研究与现实世界口语对话场景之间的差距。虽然提出了几个小规模口语 TOD 数据集来解决 ASR 错误等鲁棒性问题,但它们忽略了口语对话中的独特挑战 ...

0 0 1 13 2024/05/14 arXiv:2305.13040v5 xx

最近,大型语言模型(LLM)的进步在各种语言任务中表现出了前所未有的能力。本文通过上下文学习和特定于任务的微调,研究了 LLM 在带有噪声 ASR 转录的槽位填充中的潜在应用。提出了专用的提示设计和微调方法,以提高 LLM 在用嘈杂的 ASR 转录进行槽填充时的鲁棒性 ...

0 0 1 27 2024/05/09 arXiv:2311.07418v1 xx

随着大型语言模型(LLM)能力的不断增强,这些高性能模型在广泛的自然语言处理(NLP)任务上取得了最先进的结果。然而,当应用于现实世界的噪声数据时,模型在常用基准数据集上的性能通常无法准确反映其可靠性和鲁棒性。为了应对这些挑战,我们提出了一个基于槽填充任务的统一鲁棒性评估框架,以系统地评估 LLM 在不同输入扰动场景下的对话理解能力 ...

0 0 1 1 2024/05/08 arXiv:2310.06504v1 xx

尽管近年来机器学习在科学发现方面取得了重大进展,但真正从头设计具有感兴趣特性的小分子仍然是一个重大挑战。我们介绍 LambdaZero,一种用于搜索可合成分子的生成主动学习方法。在深度强化学习的支持下,LambdaZero 学会搜索广阔的分子空间,以发现具有所需特性的候选分子 ...

0 0 0 0 2024/05/07 arXiv:2405.01616v1 xx

基于端到端生成的方法已被研究并应用于面向任务的对话系统。然而,在工业场景中,现有方法面临可控性瓶颈(例如 ...

0 0 1 10 2024/04/25 arXiv:2304.00884v1 xx

对齐问题的复杂性源于现有方法不稳定。研究人员不断发明各种技巧来解决这个缺点。例如,在语言模型对齐的基本人类反馈强化学习 (RLHF) 技术中,除了奖励最大化之外,可训练策略和 SFT 策略之间的 Kullback-Leibler 差异也被最小化 ...

0 0 0 0 2024/04/17 arXiv:2404.09656v1 xx

证明几何定理是结合直觉和逻辑技能的视觉推理的标志。因此,奥林匹克级别几何问题的自动定理证明被认为是人类级别自动推理的一个重要里程碑。 AlphaGeometry 的推出标志着一项重大突破,这是一种用 1 亿个合成样本训练的神经符号模型 ...

0 0 0 0 2024/04/11 arXiv:2404.06405v1 xx

通过使用软目标(硬目标的加权平均值和标签上的均匀分布),通常可以显着提高多类神经网络的泛化和学习速度。以这种方式平滑标签可以防止网络变得过度自信,并且标签平滑已被用于许多最先进的模型中,包括图像分类、语言翻译和语音识别。尽管标签平滑被广泛使用,但人们对其仍然知之甚少 ...

0 0 0 0 2024/04/07 arXiv:1906.02629v3 xx

胶囊是一组神经元,其活动向量表示特定类型实体(例如对象或对象部分)的实例化参数。我们使用活动向量的长度来表示实体存在的概率,并使用其方向来表示实例化参数。某一级别的活动胶囊通过变换矩阵对更高级别胶囊的实例化参数进行预测 ...

0 0 0 0 2024/04/07 arXiv:1710.09829v2 xx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)