一译 —— 文档和论文翻译、对照阅读、讨论和社区

StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows

使用大型语言模型（LLM）来处理复杂的任务是一个显着的趋势，例如需要一系列操作以及与工具和外部环境进行动态交互的任务 ...

0 0 0 2025/04/18 arXiv:2403.11322v5 jueli

Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

多模式大语言模型（MLLMS）实现了出色的性能，以实现细粒度的像素级理解任务。但是，所有作品都在很大程度上依赖于额外的组件，例如视觉编码器（剪辑），分割专家，导致高系统复杂性和限制模型缩放。在这项工作中，我们的目标是在不引入额外组件的情况下探索高度简化的MLLM ...

0 0 0 2025/04/18 arXiv:2504.10465v1 Archer

Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics

近年来，无监督的单眼深度和自我运动估计引起了广泛的研究关注。尽管当前的方法达到了高度最高的准确性，但由于使用单眼序列训练固有的规模歧义，它们通常无法学习真实规模的指标。在这项工作中，我们解决了这个问题，并提出了Dynadepth，这是一个新颖的量表感知框架，该框架整合了视觉和IMU运动动态的信息 ...

0 0 0 2025/04/18 arXiv:2207.04680v3 xdd

SimSwap: An Efficient Framework For High Fidelity Face Swapping

我们提出了一个有效的框架，称为简单交换（，simswap），旨在实现通用和高保真度的面部交换。与之前缺乏泛化任意身份的能力或无法保留面部表情和注视方向等属性的方法相比，我们的框架能够将任意源面部的身份转移到任意目标面部，同时保留以下属性：目标脸。我们通过以下两种方式克服上述缺陷... ...

0 0 0 2025/04/18 arXiv:2106.06340v1 bnexx

Direct Preference Knowledge Distillation for Large Language Models

在大型语言模型（LLM）领域，知识蒸馏（KD）是将能力从教师模型转移到学生模型的关键技术。但是，现有的KD方法面临LLM蒸馏的限制和挑战，包括传统KL差异的效率和不足的测量能力。结果表明，LLM可以用作隐式奖励函数，我们将其定义为KL Divergence的补充 ...

0 0 0 2025/04/18 arXiv:2406.19774v2 sherwinNG

RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents

在过去的一年中，大型语言模型（LLM）在传统的自然语言处理之外取得了巨大的成功，并且在与外部工具相关时，它们的能力进一步扩展到了所谓的LLM代理。在所有域中，LLMS的提示已显示出对LLM产生的内容的巨大变化，从而影响LLM代理的性能。因此，对于许多LLM的研究人员和用户来说，自动及时工程（APE）已成为一个重要的问题 ...

0 0 0 2025/04/18 arXiv:2406.11132v2 DamnMan

Towards an AI Observatory for the Nuclear Sector: A tool for anticipatory governance

AI模型正在迅速融入核能研究和工作的各个方面，但是这种嵌入的安全性，安全性和保障措施的后果尚未得到很好的了解。在本文中，我们呼吁建立核部门AI的预期治理体系，并创建全球AI天文台作为操作预期治理的手段。本文通过利用科学和技术研究，公共政策和远见研究的工作来探讨核AI天文台的轮廓和预期的治理体系 ...

0 0 0 2025/04/18 arXiv:2504.12358v1 tmylla

GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models

利用小组相对策略优化（GRPO）的类似R1的推理模型的最新进展已显着改善了语言模型在数学推理任务上的性能。但是，当前的GRPO实施遇到了关键的挑战，包括由于二进制精度指标引起的奖励稀疏性，简洁性的有限激励措施以及对复杂推理任务的关注不足。为了解决这些问题，我们提出了GRPO-LEAD，这是一套针对数学推理量身定制的新型增强功能 ...

0 0 0 2025/04/18 arXiv:2504.09696v1 takkeri

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）