一译 —— 文档和论文翻译、对照阅读、讨论和社区

GameArena: Evaluating LLM Reasoning through Live Computer Games

评估大语言模型（LLM）的推理能力是具有挑战性的。现有的基准通常取决于静态数据集，这些数据集容易受到数据污染的影响，并且可能会随着时间的流逝而变得饱和，或者是将推理与其他能力混为一谈的二进制实时反馈。作为最突出的动态基准，聊天机器人体育馆在现实世界中评估了开放式问题，但缺乏评估特定推理能力的粒度 ...

0 0 0 2025/05/22 arXiv:2412.06394v5 chrisxiong

Constructing and Exploring Intermediate Domains in Mixed Domain Semi-supervised Medical Image Segmentation

有限的注释和域转移都是医学图像分割中普遍的挑战。传统的半监督分割和无监督的域适应方法分别解决了这些问题之一。但是，有限的注释和域转移的共存非常普遍，这激发了我们引入一种新颖而充满挑战的场景：混合域半监督医学图像分割（MIDSS） ...

0 0 0 2025/05/22 arXiv:2404.08951v1 Ferra_Lee

Sigmoid Loss for Language Image Pre-Training

我们为语言图像预训练（siglip）提出了一个简单的成对sigmoid损失。与标准的对比度学习具有SoftMax归一化不同，Sigmoid损失仅在图像文本对上运行，并且不需要对成对相似性的全局视图进行标准化。同时，Sigmoid损失允许进一步扩大批量尺寸，同时在较小的批次尺寸下表现更好 ...

0 0 0 2025/05/22 arXiv:2303.15343v4 meme

Using an LLM to Help With Code Understanding

了解代码是具有挑战性的，尤其是在新的和复杂的开发环境中工作时。代码注释和文档可能会有所帮助，但通常很少或难以导航。大型语言模型（LLM）正在彻底改变编写代码的过程 ...

0 0 0 2025/05/22 arXiv:2307.08177v3 UUU

SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

社会互动中的推理和战略行为是智力的标志。这种推理形式比静态设置中的孤立计划或推理任务要复杂得多（例如 ...

0 0 0 2025/05/22 arXiv:2503.12349v3 chrisxiong

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

现代LLM的顺序性质使它们变得昂贵且缓慢，并且投机性抽样已被证明是解决此问题的有效解决方案。诸如Eagle之类的方法在特征级别执行自动降低，重复使用目标模型的顶层特征，以获得比香草投机采样更好的结果。 LLM社区的增长趋势正在扩大培训数据，以改善模型智能而不增加推理成本 ...

0 0 0 2025/05/22 arXiv:2503.01840v3 wolfsoul

TextArena

TextArena是基于文本的游戏的开源集，用于培训和评估大语言模型（LLMS）的代理行为。它跨越了57多个独特的环境（包括单人游戏，两人和多玩家设置），并允许通过在线游戏系统（针对人类和其他提交的模型）轻松评估模型功能，并具有实时的Trueskill分数。传统基准很少评估动态的社交技能，例如谈判，思想理论和欺骗，从而造成了Textarena解决的差距 ...

0 0 0 2025/05/22 arXiv:2504.11442v1 chrisxiong

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

大型语言模型 (LLM) 的性能在很大程度上取决于其预训练数据集的质量和大小。然而，Llama 3 和 Mixtral 等最先进的开放式 LLM 的预训练数据集并未公开提供，而且人们对它们的创建方式知之甚少。在这项工作中，我们介绍了 FineWeb，这是一个源自 96 个 Common Crawl 快照的 15 万亿 Token 数据集，它产生比其他开放预训练数据集性能更好的 LLM ...

0 0 0 2025/05/22 arXiv:2406.17557v2 guyanmei.gym

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）