评估大语言模型(LLM)的推理能力是具有挑战性的。现有的基准通常取决于静态数据集,这些数据集容易受到数据污染的影响,并且可能会随着时间的流逝而变得饱和,或者是将推理与其他能力混为一谈的二进制实时反馈。作为最突出的动态基准,聊天机器人体育馆在现实世界中评估了开放式问题,但缺乏评估特定推理能力的粒度 ...
有限的注释和域转移都是医学图像分割中普遍的挑战。传统的半监督分割和无监督的域适应方法分别解决了这些问题之一。但是,有限的注释和域转移的共存非常普遍,这激发了我们引入一种新颖而充满挑战的场景:混合域半监督医学图像分割(MIDSS) ...
我们为语言图像预训练(siglip)提出了一个简单的成对sigmoid损失。与标准的对比度学习具有SoftMax归一化不同,Sigmoid损失仅在图像文本对上运行,并且不需要对成对相似性的全局视图进行标准化。同时,Sigmoid损失允许进一步扩大批量尺寸,同时在较小的批次尺寸下表现更好 ...
了解代码是具有挑战性的,尤其是在新的和复杂的开发环境中工作时。代码注释和文档可能会有所帮助,但通常很少或难以导航。大型语言模型(LLM)正在彻底改变编写代码的过程 ...
社会互动中的推理和战略行为是智力的标志。这种推理形式比静态设置中的孤立计划或推理任务要复杂得多(例如 ...
现代LLM的顺序性质使它们变得昂贵且缓慢,并且投机性抽样已被证明是解决此问题的有效解决方案。诸如Eagle之类的方法在特征级别执行自动降低,重复使用目标模型的顶层特征,以获得比香草投机采样更好的结果。 LLM社区的增长趋势正在扩大培训数据,以改善模型智能而不增加推理成本 ...
TextArena是基于文本的游戏的开源集,用于培训和评估大语言模型(LLMS)的代理行为。它跨越了57多个独特的环境(包括单人游戏,两人和多玩家设置),并允许通过在线游戏系统(针对人类和其他提交的模型)轻松评估模型功能,并具有实时的Trueskill分数。传统基准很少评估动态的社交技能,例如谈判,思想理论和欺骗,从而造成了Textarena解决的差距 ...
大型语言模型 (LLM) 的性能在很大程度上取决于其预训练数据集的质量和大小。然而,Llama 3 和 Mixtral 等最先进的开放式 LLM 的预训练数据集并未公开提供,而且人们对它们的创建方式知之甚少。在这项工作中,我们介绍了 FineWeb,这是一个源自 96 个 Common Crawl 快照的 15 万亿 Token 数据集,它产生比其他开放预训练数据集性能更好的 LLM ...