由于循环神经网络的复兴,序列已成为监督学习中的一等公民。现在可以使用序列到序列 (seq2seq) 框架来制定许多需要从观察序列进行映射或映射到观察序列的复杂任务,该框架采用链式法则来有效表示序列的联合概率。然而,在许多情况下,可变大小的输入和/或输出可能不会自然地表达为序列 ...
我们引入了一种新的神经架构来学习输出序列的条件概率,其中的元素是与输入序列中的位置相对应的离散标记。此类问题无法通过序列到序列和神经图灵机等现有方法轻松解决,因为输出的每个步骤中的目标类数量取决于输入的长度,而输入的长度是可变的。诸如对可变大小序列进行排序的问题以及各种组合优化问题都属于此类 ...
我们提出了一种用于具有长短期记忆 (LSTM) 单元的循环神经网络 (RNN) 的简单正则化技术。 Dropout 是最成功的神经网络正则化技术,但它不适用于 RNN 和 LSTM。在本文中,我们展示了如何正确地将 dropout 应用于 LSTM,并证明它可以大大减少各种任务的过度拟合 ...
离线偏好优化是增强和控制大语言模型(LLM)输出质量的关键方法。通常,偏好优化被视为使用手动设计的凸损失函数的离线监督学习任务。虽然这些方法基于理论见解,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍在探索中 ...
对比语言图像预训练 (CLIP) 广泛用于训练模型,通过将图像和文本映射到固定大小的向量,在公共嵌入空间中对齐图像和文本。这些模型是多模式信息检索和相关任务的关键。然而,与专门的文本模型相比,CLIP 模型在纯文本任务中通常表现不佳 ...
虽然大型语言模型 (LLM) 在一系列决策任务中表现出了令人印象深刻的性能,但它们依赖于简单的执行过程,无法作为自主代理进行广泛部署。我们引入 LATS(语言代理树搜索),这是一个通用框架,可以协同 LLM 在规划、行动和推理方面的能力。受到基于模型的强化学习中蒙特卡罗树搜索的启发,LATS 采用 LLM 作为代理、价值函数和优化器,重新利用其潜在优势来增强决策能力 ...
电子设计工程师面临着为设计构建、验证和技术开发中的众多任务有效地找到相关信息的挑战。大型语言模型 (LLM) 有潜力通过充当有效充当主题专家的对话代理来帮助提高生产力。在本文中,我们演示了 Ask-EDA,这是一个聊天代理,旨在充当 24x7 专家,为设计工程师提供指导 ...
启发式方法广泛用于处理复杂的搜索和优化问题。然而,启发式的手工设计通常非常费力,并且需要丰富的工作经验和知识。论文提出启发式进化(EoH),这是一种新颖的进化范式,利用大型语言模型(LLM)和进化计算(EC)方法进行自动启发式设计(AHD)... ...
设备端机器学习 (ML) 将计算从云端转移到个人设备,保护用户隐私并实现智能用户体验。然而,在资源有限的设备上拟合模型提出了重大的技术挑战:从业者需要优化模型并平衡模型大小、延迟和功耗等硬件指标。为了帮助从业者创建高效的机器学习模型,我们设计并开发了 Talaria:模型可视化和优化系统 ...
图神经网络 (GNN) 是一类功能强大的机器学习工具,可对节点关系进行建模以预测节点或链接。 GNN 开发人员依靠预测的定量指标来评估 GNN,但与许多其他神经网络类似,他们很难理解 GNN 是否真正按照预期学习了图的特征。我们提出了一种将输入图与其节点嵌入(也称为潜在空间)相对应的方法,这是 GNN 的常见组件,稍后用于预测 ...