一译 —— 文档和论文翻译、对照阅读、讨论和社区

Manifold Alignment for Semantically Aligned Style Transfer

大多数现有样式转移方法遵循以下假设：样式可以用全球统计信息（例如革兰氏阴矩阵或协方差矩阵）表示，从而通过强迫输出和样式图像具有相似的全球统计信息来解决问题 ...

0 0 0 2025/06/10 arXiv:2005.10777v2 pip-install

Backdooring Bias into Text-to-Image Models

文本条件扩散模型，即文本到图像，产生醒目的图像，代表用户给出的描述 ...

0 0 0 2025/06/10 arXiv:2406.15213v2 zer

E^2GraphRAG: Streamlining Graph-based RAG for High Efficiency and Effectiveness

基于图形的抹布方法（例如GraphRag）通过构建层次结构实体图显示了对知识库的有希望的全局理解。但是，它们通常会遭受效率低下的困扰，并依靠手动预定义的查询模式，从而限制了实际使用。在本文中，我们提出了E^2graphrag，这是一个简化的基于图形的抹布框架，可提高效率和有效性 ...

0 0 0 2025/06/10 arXiv:2505.24226v4 liuweitang

Audio-Aware Large Language Models as Judges for Speaking Styles

音频感知的大语言模型（ALLMS）可以理解音频输入中的文本和非文本信息。在本文中，我们探索使用Allms作为自动法官来评估演讲风格。我们使用ALLM法官来评估SLM在两个任务上生成的演讲：语音样式指令以下和角色扮演 ...

0 0 0 2025/06/10 arXiv:2506.05984v1 ka

Beware of Calibration Data for Pruning Large Language Models

由于大型语言模型（LLM）在各个领域广泛应用，因此模型压缩对于降低成本和提高推论效率变得越来越重要。训练后修剪是一种有前途的方法，不需要资源密集型迭代培训，并且只需要少量的校准数据即可评估参数的重要性。先前的研究主要集中在设计先进的修剪方法上，而不同的校准数据对修剪性能的影响仍然缺乏系统的探索 ...

0 0 0 2025/06/10 arXiv:2410.17711v1 Daenerays

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

最近已经探索了各种音频llms（ALLMS），用于使用单个统一模型同时处理不同的音频任务。尽管对ALLM的现有评估主要集中在单审特任务上，但实际应用程序通常涉及同时处理多个音频流。为了弥合这一差距，我们提出了第一个多审计评估（MAE）基准，该基准包括来自涵盖语音和声音场景的11个多audio任务的20个数据集 ...

0 0 0 2025/06/10 arXiv:2409.18680v3 ka

Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

预测深度是理解场景3D几何形状的重要组成部分。对于立体声图像，局部对应足以估算，但从单个图像中找到深度关系并不简单，需要从各种提示中整合全球和本地信息。此外，任务本质上是模棱两可的，总体规模的不确定性很大 ...

0 0 0 2025/06/10 arXiv:1406.2283v1 rcc

Reinforcement Pre-Training

在这项工作中，我们将强化预训练（RPT）作为大型语言模型和强化学习（RL）的新缩放范式（RPT）。具体来说，我们将下一步预测重新构建为使用RL训练的推理任务，在该任务中，它可以在其中获得可验证的奖励，以正确预测给定上下文的下一 Token 。 RPT提供了一种可扩展的方法来利用大量文本数据作为通用RL，而不是依靠特定于域的注释答案 ...

0 0 0 2025/06/10 arXiv:2506.08007v1 myzeng

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）