最近, Transformer 的规模迅速发展,这在训练开销和任务适应范围的推理效率方面引入了巨大的挑战。现有的作品,即参数有效的微调(PEFT)和模型压缩,已分别研究了挑战。但是,PEFT无法保证原始主链的推理效率,尤其是对于大型型号 ...
学习从人类视频中执行操纵任务是一种教学机器人的有前途的方法。但是,许多操纵任务都需要在任务执行过程中更改控制参数,例如force,仅视觉数据无法捕获。在这项工作中,我们利用传感设备(例如测量人类肌肉活动和记录声音的麦克风,捕获人体操纵过程中的细节)等臂章,并使机器人能够提取任务计划和控制参数来执行相同的任务 ...
检索增强的生成(RAG)是减轻大语言模型(LLM)中幻觉并将外部知识整合到其反应中的关键方法。现有的抹布方法通常采用查询重写来阐明用户意图并管理多跳逻辑,同时使用混合检索来扩展搜索范围。但是,查询重写与密集回猎商的紧密耦合限制了其与混合检索的兼容性,阻碍了进一步的破布性能 ...
RAG系统由多个协同工作的模块组成。然而,这些模块通常是单独训练的。我们认为,像 RAG 这样包含多个模块的系统应该联合优化以实现最佳性能 ...
多目标优化可以在许多现实世界应用中找到,在这些应用程序中,单个解决方案无法优化某些冲突的目标。现有的优化方法通常集中于寻找目标之间具有不同最佳权衡的一组帕累托解决方案。但是,相对于目标的数量而言,所需数量的解决方案可以近似于整个帕累托最佳集合,这使得这些方法不适合处理许多优化目标 ...
深度学习中的多目标优化(MOO)旨在同时优化多个冲突目标,这是在多任务学习和多标准学习等领域经常遇到的挑战。基于梯度的MOO方法的最新进展使发现了各种类型的解决方案,从单个平衡解决方案到有限的或什至是无限的帕累托集,适合用户需求。这些发展在跨领域(例如增强学习,计算机愿景,推荐系统和大语言模型)的领域具有广泛的应用 ...
有机地推理文本和图像的能力是人类智力的支柱,但是多模式大语言模型(MLLMS)执行此类多模式推理的能力仍然不足。现有的基准通常强调文本主导推理或依靠浅视觉提示,无法充分评估综合的视觉和文本推理。我们介绍了Emma(增强的多模式推理),这是针对数学,物理,化学和编码的有机多模式推理的基准测试 ...
长期生成对于广泛的实用应用至关重要,通常归类为短期和漫长的一代。尽管短期几代人受到了广泛的关注,但从极长的资源中产生长文本仍然相对不受欢迎。远程一代的主要挑战在于有效地整合和分析广泛投入的相关信息,这对于当前的大型语言模型(LLMS)仍然很难 ...