一译 —— 文档和论文翻译、对照阅读、讨论和社区

Humanity's Last Exam

基准是跟踪大语言模型（LLM）功能快速进步的重要工具。但是，基准测试并没有保持困难：LLMS现在在MMLU等流行的基准测试中实现超过90％的准确性，从而限制了最先进的LLM功能的知情测量。作为回应，我们介绍了人类的最后考试（HLE），这是人类知识前沿的多模式基准，旨在成为具有广泛主题覆盖的最终封闭式学术基准 ...

0 0 0 2025/03/29 arXiv:2501.14249v5 wbc200232

A Robust Volumetric Transformer for Accurate 3D Tumor Segmentation

我们提出了用于体积分段的 Transformer 体系结构，这是一项具有挑战性的任务，需要在编码本地和全局空间提示时保持复杂的平衡，并沿着卷的所有轴线保留信息。所提出的设计的编码器受到自我注意机制的好处，可以同时编码本地和全球线索，而解码器则采用平行的自我和交叉注意表述来捕获边界细化的细节。从经验上讲，我们表明所提出的设计选择导致了一个计算高效的模型，并在医疗分割的十项全能（MSD）脑肿瘤分段（B ...

0 0 0 2025/03/29 arXiv:2111.13300v2 Lwen1243

Understanding R1-Zero-Like Training: A Critical Perspective

DeepSeek-R1-Zero表明，大规模增强学习（RL）可以直接增强LLM的推理能力而无需监督微调。在这项工作中，我们通过分析其两个核心组件：基本模型和RL来批判性地检查类似R1-Zero的训练。我们研究了包括DeepSeek-V3基量在内的广泛的基本模型，以了解预处理特征如何影响RL性能 ...

0 0 0 2025/03/29 arXiv:2503.20783v1 swaydy

Open Deep Search: Democratizing Search with Open-source Reasoning Agents

我们介绍开放的深度搜索（ODS），以缩小专有搜索AI解决方案之间的差距，例如《困惑的声纳推理》和OpenAI的GPT-4O搜索预览及其开源对应物。 ODS引入的主要创新是通过推理代理可以明智地使用Web搜索工具来回答查询的最新开源LLM的推理能力。具体而言，ODS由两个组件组成，这些组件与用户选择的基本LLM一起使用：打开搜索工具和打开推理代理 ...

0 0 0 2025/03/29 arXiv:2503.20201v1 liuweitang

SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation

大型语言模型（LLMS）已转换代码生成。但是，大多数现有的方法都集中在诸如Python和Java等主流语言上，忽略了Solidity语言，这是以太坊智能合约的主要编程语言。由于缺乏足够的固体基准，LLMS生成安全，具有成本效益的智能合约的能力仍未得到探索 ...

0 0 0 2025/03/29 arXiv:2502.18793v1 heyi

Improving Hyper-Relational Knowledge Graph Completion

与传统的知识图（kg）不同，事实表示为实体关系 - 实体三胞胎，超级关系kgs（hkgs）允许三胞胎与其他关系 - 实体对（A.K.A预选赛）相关联，以传达更复杂的信息 ...

0 0 0 2025/03/29 arXiv:2104.08167v1 evol97

Query Embedding on Hyper-relational Knowledge Graphs

多跳跃逻辑推理是在知识图（KGS）上学习领域的一个已建立问题。它既包含单跳连接预测，也包括其他更复杂的逻辑查询类型。现有的算法仅在经典的基于三重的图表上运行，而现代的KG经常采用超相关的建模范式 ...

0 0 0 2025/03/29 arXiv:2106.08166v3 evol97

CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation

大型语言模型（LLM）已彻底改变了自然语言处理（NLP），尤其是通过检索型发电（RAG），通过整合外部知识来增强LLM功能。但是，传统的抹布系统面临着关键的局限性，包括由于文本块而导致的上下文完整性中断，以及对检索的语义相似性的过度依赖。为了解决这些问题，我们提出了Causalrag，这是一个新颖的框架，将因果图纳入检索过程中 ...

0 0 0 2025/03/29 arXiv:2503.19878v1 ymx

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）