关系推理是一般智能行为的核心组成部分,但事实证明神经网络很难学习。在本文中,我们描述了如何使用关系网络(RN)作为简单的即插即用模块来解决从根本上取决于关系推理的问题。我们在三项任务上测试了 RN 增强网络:使用名为 CLEVR 的挑战性数据集进行视觉问答,我们在该数据集上实现了最先进的超人类表现;使用 bAbI 任务套件进行基于文本的问答;以及关于动态物理系统的复杂推理 ...

0 0 0 0 2024/06/15 arXiv:1706.01427v1 mosymxl

深度残差网络已经成为一系列极深的架构,显示出令人信服的准确性和良好的收敛行为。在本文中,我们分析了残差构建块背后的传播公式,这表明当使用恒等映射作为跳过连接和添加后激活时,前向和后向信号可以直接从一个块传播到任何其他块。一系列消融实验支持了这些身份映射的重要性 ...

0 0 0 0 2024/06/15 arXiv:1603.05027v3 mosymxl

最先进的语义分割模型基于最初为图像分类而设计的卷积网络的改编。然而,密集预测和图像分类在结构上是不同的。在这项工作中,我们开发了一种新的卷积网络模块,专为密集预测而设计 ...

0 0 0 0 2024/06/15 arXiv:1511.07122v3 mosymxl

扩展深度神经网络容量被认为是提高多种不同机器学习任务模型质量的有效方法。在许多情况下,将模型容量提高到超出单个加速器的内存限制需要开发特殊的算法或基础设施。这些解决方案通常是特定于体系结构的,并且不会转移到其他任务 ...

0 0 0 0 2024/06/15 arXiv:1811.06965v5 mosymxl

由于循环神经网络的复兴,序列已成为监督学习中的一等公民。现在可以使用序列到序列 (seq2seq) 框架来制定许多需要从观察序列进行映射或映射到观察序列的复杂任务,该框架采用链式法则来有效表示序列的联合概率。然而,在许多情况下,可变大小的输入和/或输出可能不会自然地表达为序列 ...

0 0 1 1 2024/06/15 arXiv:1511.06391v4 mosymxl

我们引入了一种新的神经架构来学习输出序列的条件概率,其中的元素是与输入序列中的位置相对应的离散标记。此类问题无法通过序列到序列和神经图灵机等现有方法轻松解决,因为输出的每个步骤中的目标类数量取决于输入的长度,而输入的长度是可变的。诸如对可变大小序列进行排序的问题以及各种组合优化问题都属于此类 ...

0 0 0 0 2024/06/15 arXiv:1506.03134v2 mosymxl

我们提出了一种用于具有长短期记忆 (LSTM) 单元的循环神经网络 (RNN) 的简单正则化技术。 Dropout 是最成功的神经网络正则化技术,但它不适用于 RNN 和 LSTM。在本文中,我们展示了如何正确地将 dropout 应用于 LSTM,并证明它可以大大减少各种任务的过度拟合 ...

0 0 0 0 2024/06/15 arXiv:1409.2329v5 mosymxl

离线偏好优化是增强和控制大语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍在探索中 ...

0 0 0 0 2024/06/15 arXiv:2406.08414v1 mosymxl

对比语言图像预训练 (CLIP) 广泛用于训练模型,通过将图像和文本映射到固定大小的向量,在公共嵌入空间中对齐图像和文本。这些模型是多模式信息检索和相关任务的关键。然而,与专门的文本模型相比,CLIP 模型在纯文本任务中通常表现不佳 ...

0 0 0 0 2024/06/14 arXiv:2405.20204v1 mosymxl

虽然大型语言模型 (LLM) 在一系列决策任务中表现出了令人印象深刻的性能,但它们依赖于简单的执行过程,无法作为自主代理进行广泛部署。我们引入 LATS(语言代理树搜索),这是一个通用框架,可以协同 LLM 在规划、行动和推理方面的能力。受到基于模型的强化学习中蒙特卡罗树搜索的启发,LATS 采用 LLM 作为代理、价值函数和优化器,重新利用其潜在优势来增强决策能力 ...

0 0 0 0 2024/06/14 arXiv:2310.04406v3 mosymxl

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)