近年来,提示指导大语模型的输出的使用已大大增加。但是,即使是最好的专家也很难选择正确的单词来缝制所需任务的提示。为了解决这个问题,LLM驱动的提示优化是一个重要的问题 ...
用于生成AI的大型语言模型(LLM)取得了显着的进步,并发展成为各个领域和应用程序广泛采用的复杂和多功能工具。但是,由其大量参数造成的大量内存开销,再加上注意机制的高计算需求,在实现LLM推理服务的低潜伏期和高吞吐量方面构成了重大挑战。在开创性研究的推动下,最近的进步已大大加快了这一领域的进步 ...
随着业务方案的扩展,真正的推荐系统在处理多任务学习框架中不断出现的新任务方面面临着挑战。在本文中,我们试图提高处理新任务时多任务建议的概括能力。我们发现联合培训将提高新任务的性能,但在大多数多任务学习方法中始终对现有任务产生负面影响 ...
数据Shapley提供了一个原则上的框架,用于将数据贡献归因于机器学习环境。但是,现有的方法需要对不同数据子集进行重新训练模型,这在计算密集型集中取消了其对大规模模型的应用。此外,它们为通过运行学习算法产生的任何模型产生相同的归因分数,这意味着他们无法对从算法的单个运行中获得的特定模型执行有针对性的归因 ...
尽管机器学习研究的迅速增长,但相应的代码实施通常无法实现,这使研究人员重现结果并在先前的工作基础上进行劳动密集型。同时,最近的大型语言模型(LLMS)在了解科学文档并生成高质量代码方面表现出色。受此启发的启发,我们介绍了PaperCoder,这是一个多代理LLM框架,将机器学习论文转换为功能代码存储库 ...
在本文中,我们在享乐游戏(HGS)的背景下,以朋友的欣赏(FA)偏好研究了一种轻松的策略性操纵性(NOM)。在HGS中,目的是根据他们的偏好将代理人分为联盟,这完全取决于他们被分配的联盟。在FA偏好下,代理商考虑了任何其他代理人,无论是朋友还是敌人,都更喜欢与更多朋友的联盟,如果有联系,那些敌人的敌人较少 ...
多模式推理的最新进展在很大程度上忽略了音频方式。我们介绍了Audio-Reasoner,这是一种大规模的音频语言模型,用于在音频任务中进行深入推理。我们精心策划了具有简单注释的大规模和多样化的多任务音频数据集 ...
知识基础问题回答(KBQA)旨在用大规模的结构化知识库(KB)回答自然语言问题。尽管有大型语言模型(LLMS)的进步,KBQA仍然面临KB意识,有效性和效率之间的不平衡以及对注释数据的高度依赖的挑战。为了应对这些挑战,我们提出了KBQA-O1,这是一种具有蒙特卡洛树搜索(MCTS)的新型代理KBQA方法 ...
最近的研究表明,使模型花费更多的时间通过更长的思想链(COT)进行思考,从而使其能够在复杂的推理任务中获得重大改进。尽管当前的研究继续通过扩展大型语言模型(LLMS)的COT长度来探索增加测试时间计算的好处,但我们担心当前追求测试时间扩展的潜在问题:过度扩展COT实际上会给模型的推理绩效带来不利影响吗?我们对数学推理任务的探索揭示了一个意外的发现,即使用更长的COTS缩放确实会损害某些域中LLM的推理性能。此外,我们发现存在最佳的缩放长度分布,在不同的域之间有所不同 ...
大型语言模型(LLMS)在通过诸如Thebough(COT)提示之类的机制来解决复杂的推理任务方面表现出了显着的性能,该机制强调了详细的,逐步的推理。但是,人类通常采用更有效的策略:起草简洁的中间思想,只捕获基本信息。在这项工作中,我们提出了草稿链(COD),这是一种受人类认知过程启发的新型范式,在该过程中,LLMS在解决任务时会产生简约但内容丰富的中间推理输出 ...