在这项工作中,我们提出了WLB-LLM,这是用于大型语言模型培训的工作负载平衡的4D并行性。我们首先彻底分析了LLM培训中的工作量不平衡问题,并在管道并行性和环境并行性水平上确定了两个主要来源。然后,为了解决不平衡问题,在管道并行性级别上,WLB-LLM结合了一种工作负载 - 意识到的可变长度文档包装方法,以平衡跨微批次的计算和通信工作负载 ...
大型语言模型(LLM)经常由于不正确或过时的知识而表现出幻觉。因此,已经出现了模型编辑方法以实现目标知识更新。为了实现这一目标,盛行的范式是定位的编辑方法,该方法首先定位有影响力的参数,然后通过引入扰动来对其进行编辑 ...
我们推出了Yolo 的一些更新!我们做了一些小的设计更改以使其变得更好。我们还训练了这个相当强大的新网络。它比上次大一点,但更准确... ...
视觉语言(VL)学习需要广泛的视觉感知能力,例如细粒对象识别和空间感知。最近的工作通常依靠在大型数据集上培训大型模型来开发这些功能。作为一种更有效的替代方案,本文提出了一个新框架,该框架从视力专家(TOVE)的枢纽转移知识以进行有效的VL学习,利用预先训练的视觉专家模型来促进视觉感知能力 ...
开发聪明的有说服力的对话代理,以改变人们对社会利益的看法和行动,是推进自动对话系统道德发展的前沿。为此,第一步是了解人类说服对话中使用的战略披露和上诉的复杂组织。我们设计了一项在线说服任务,要求一个参与者说服另一个参与者向特定的慈善机构捐款 ...
尽管取得了重大进步,但大型语言模型(LLM)的实际部署通常会因其巨大尺寸而受到阻碍,这突出了需要有效的压缩技术。单数值分解(SVD)是一种有希望的LLM压缩技术。但是,现有的基于SVD的压缩方法在减少截短损失方面缺乏,导致压缩模型中竞争性的性能较低 ...
激活稀疏性是指激活输出中存在相当多的贡献元素。作为使用ReLU激活函数的模型的通用属性,激活稀疏性已被证明是提高模型推理效率的有前景的范例。然而,大多数大型语言模型(LLM)采用没有内部激活稀疏性的激活函数(例如... ...
寻求饮食指导通常需要在适应个人健康状况的同时浏览复杂的专业知识。知识图(KGS)提供结构化且可解释的营养信息,而大型语言模型(LLMS)自然促进了会话建议交付。在本文中,我们提出了HealthGenie,这是一种交互式系统,结合了LLM和KG的优势,以提供个性化的饮食建议以及层次信息可视化,以快速而直观的概述 ...