本文提出了一种简单,有效且具有成本效益的策略,可以通过扩展测试时间计算来提高LLM性能。我们的策略建立在重复采样到投票框架的基础上,这是一个新颖的转折:结合了多种模型,甚至更弱的模型,以利用其互补优势,这可能是由多样化的培训数据和范式产生的。通过将一致性用作信号,我们的策略在模型之间动态切换 ...
Experts混合物(MOE)模型的计算稀疏性可以随着模型尺寸的增加而在计算成本中的亚线性增长,从而为训练大规模的神经网络提供了可扩展的路径。但是,现有的实现遭受了\ emph {低gpu利用率},\ emph {显着的延迟开销},并且主要是由于CPU管理的调度,宿主启动,宿主启动的通信和频繁的kernel发射。为了克服这些局限性,我们开发了FlashDmoe,这是一个完全GPU居住的MOE操作员 ...
大规模的人类流动性表现出空间和时间模式,可以帮助决策者进行决策。尽管传统的预测模型试图捕获这些模式,但它们经常受到非周期性公共事件的干预,例如灾难和偶尔的庆祝活动。由于常规的人类流动性模式受这些事件的严重影响,因此估计其因果影响对于准确的活动性预测至关重要 ...
大型语言模型(LLMS)具有执行文本学习(ICL)的非凡能力,这使他们能够同时处理多个下游任务,而无需特定于任务的微调。最近的研究表明,即使是中等大小的LLM,例如Mistral 7b,Gemma 7b和Llama-3 8b,也可以通过几次对所有任务进行几次细微调整来实现ICL。但是,这种方法仍然落后于专用的微调,在每个任务中都对单独的模型进行了训练 ...
Cross-Silo Federated学习提供了一种有希望的解决方案,可以协作培训强大的AI模型,而不会损害本地数据集的隐私,例如医疗保健,财务状况以及缺乏集中数据设施的科学项目 ...
现代技术(例如对比度学习)已在许多领域有效使用,包括计算机视觉,自然语言处理和图形结构化数据。创建积极的例子来帮助模型学习鲁棒和歧视性表示是对比学习方法的关键阶段。通常,预设人直觉指导相关数据增强的选择 ...
我们如何通过时间知识图(TKG)执行知识推理? TKGS代表有关实体及其关系的事实,每个事实都与时间戳相关。对TKG的推理,即 ...
时间因素与现实应用中事实的增长有关,例如疾病的进步和政治状况的发展,因此,对时间知识图(TKG)的研究引起了很多关注。在TKG中,需要研究具有时间性固有的关系模式,以进行跨时间事实的表示和推理。但是,现有方法几乎无法建模时间关系模式,也无法捕获随着时间的流逝而发展时关系之间的固有联系,缺乏可解释性 ...