一译 —— 文档和论文翻译、对照阅读、讨论和社区

UNETR: Transformers for 3D Medical Image Segmentation

自过去十年以来，具有收缩和扩展路径的全卷积神经网络（fcnn）在大多数医学图像分割应用中表现出了突出的作用。在fcnn中，编码器通过学习全局和局部特征以及上下文表示来发挥不可或缺的作用，这些特征和上下文表示可用于解码器的语义输出预测。尽管取得了成功，但 ...

0 1 0 2025/04/15 arXiv:2103.10504v3 impxxximp

CTR-KAN: KAN for Adaptive High-Order Feature Interaction Modeling

对特征交互进行建模对于点击率 (CTR) 预测至关重要，尤其是在涉及高阶显式交互时。传统方法很难完成这项任务，因为它们经常预先定义最大交互顺序，这在很大程度上依赖于先验知识，并且会限制模型的有效性。此外，对高阶交互进行建模通常会导致计算成本增加 ...

0 0 0 2025/04/15 arXiv:2408.08713v4 18072321722

Generating Fine Details of Entity Interactions

图像不仅描绘了对象，而且还封装了它们之间的丰富相互作用。但是，产生涉及多个实体相互作用的忠实和高保真图像是一个长期的挑战。虽然在大规模数据集中对预训练的文本到图像模型进行了培训以遵循各种文本说明，但它们很难产生准确的互动，这可能是由于缺乏罕见的训练数据来实现罕见的对象交互 ...

0 0 0 2025/04/15 arXiv:2504.08714v1 qiuyan

Universal Self-Consistency for Large Language Model Generation

通过利用从大语言模型（LLMS）采样的多种推理路径（LLMS）采样的多种推理路径，与经过思考的提示（COT）的自相存在（COT）在各种具有挑战性的任务上表现出了显着的绩效增长。但是，自一致性依赖于答案提取过程来汇总多个解决方案，这不适用于自由形式的答案。在这项工作中，我们提出了普遍的自我矛盾（USC），该工作利用LLM自己在多个候选人中选择最一致的答案 ...

0 0 0 2025/04/15 arXiv:2311.17311v1 xiaoming_616

Scaling Up On-Device LLMs via Active-Weight Swapping Between DRAM and Flash

大型语言模型（LLMS）越来越多地部署在移动设备上，但是有限的DRAM容量限制了可部署的模型大小。本文介绍了ActiveFlow，这是第一个可以实现现代LLM（不是基于RELU）的自适应DRAM使用的LLM推理框架，从而可以扩大可部署的模型尺寸。该框架基于主动重量爆炸式交换的新颖概念，并结合了三种新技术：（1）预加载的跨层活性重量 ...

0 0 0 2025/04/15 arXiv:2504.08378v1 anhao

Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

Kullback-Leiber Divergence已被广泛用于知识蒸馏（KD）来压缩大语言模型（LLMS）。与先前断言反向kullback-leibler（rkl）差异是在寻求模式，因此比寻求均值的前锋kullback-leibler（fkl）差异更可取，这项研究在经验上和理论上都表明，在kd中都表现出了模式，并且在理论上都表明均没有卑鄙的属性。取而代之的是，发现RKL和FKL共享相同的优化目标 ...

0 0 0 2025/04/15 arXiv:2404.02657v4 sherwinNG

L0-Reasoning Bench: Evaluating Procedural Correctness in Language Models via Simple Program Execution

复杂的推理任务通常依赖于始终如一，准确地在增量步骤中应用简单规则的能力，这是我们称为“级别0”推理的基础能力。为了系统地评估此功能，我们介绍了L0 Bench，这是一种用于测试程序正确性的语言模型基准 - 生成正确的推理过程的能力，并补充了主要关注结果正确性的现有基准测试。给定具有简单操作的合成python函数，L0基础等级模型在其生成逐步的，无错误的执行轨迹的能力上 ...

0 0 0 2025/04/15 arXiv:2503.22832v2 chrisxiong

Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

我们提出了一个生成模型，鉴于经过粗细的图像，该模型合成了遵循规定布局的光真逼真的输出。我们的方法从原始图像传输细节，并保留其部分的身份。但是，它使其适应了新布局定义的照明和上下文 ...

0 0 0 2025/04/15 arXiv:2403.13044v1 heuwangchao

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）