基准是跟踪大语言模型(LLM)功能快速进步的重要工具。但是,基准测试并没有保持困难:LLMS现在在MMLU等流行的基准测试中实现超过90%的准确性,从而限制了最先进的LLM功能的知情测量。作为回应,我们介绍了人类的最后考试(HLE),这是人类知识前沿的多模式基准,旨在成为具有广泛主题覆盖的最终封闭式学术基准 ...
我们提出了用于体积分段的 Transformer 体系结构,这是一项具有挑战性的任务,需要在编码本地和全局空间提示时保持复杂的平衡,并沿着卷的所有轴线保留信息。所提出的设计的编码器受到自我注意机制的好处,可以同时编码本地和全球线索,而解码器则采用平行的自我和交叉注意表述来捕获边界细化的细节。从经验上讲,我们表明所提出的设计选择导致了一个计算高效的模型,并在医疗分割的十项全能(MSD)脑肿瘤分段(B ...
DeepSeek-R1-Zero表明,大规模增强学习(RL)可以直接增强LLM的推理能力而无需监督微调。在这项工作中,我们通过分析其两个核心组件:基本模型和RL来批判性地检查类似R1-Zero的训练。我们研究了包括DeepSeek-V3基量在内的广泛的基本模型,以了解预处理特征如何影响RL性能 ...
我们介绍开放的深度搜索(ODS),以缩小专有搜索AI解决方案之间的差距,例如《困惑的声纳推理》和OpenAI的GPT-4O搜索预览及其开源对应物。 ODS引入的主要创新是通过推理代理可以明智地使用Web搜索工具来回答查询的最新开源LLM的推理能力。具体而言,ODS由两个组件组成,这些组件与用户选择的基本LLM一起使用:打开搜索工具和打开推理代理 ...
大型语言模型(LLMS)已转换代码生成。但是,大多数现有的方法都集中在诸如Python和Java等主流语言上,忽略了Solidity语言,这是以太坊智能合约的主要编程语言。由于缺乏足够的固体基准,LLMS生成安全,具有成本效益的智能合约的能力仍未得到探索 ...
与传统的知识图(kg)不同,事实表示为实体关系 - 实体三胞胎,超级关系kgs(hkgs)允许三胞胎与其他关系 - 实体对(A.K.A预选赛)相关联,以传达更复杂的信息 ...
多跳跃逻辑推理是在知识图(KGS)上学习领域的一个已建立问题。它既包含单跳连接预测,也包括其他更复杂的逻辑查询类型。现有的算法仅在经典的基于三重的图表上运行,而现代的KG经常采用超相关的建模范式 ...
大型语言模型(LLM)已彻底改变了自然语言处理(NLP),尤其是通过检索型发电(RAG),通过整合外部知识来增强LLM功能。但是,传统的抹布系统面临着关键的局限性,包括由于文本块而导致的上下文完整性中断,以及对检索的语义相似性的过度依赖。为了解决这些问题,我们提出了Causalrag,这是一个新颖的框架,将因果图纳入检索过程中 ...