一译 —— 文档和论文翻译、对照阅读、讨论和社区

Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

图像条件形成的图像产生的最新进展已显示出很大的进步。然而，前景条件的图像生成仍然没有被忽视，遇到了挑战，例如对象完整性，前后背景的不一致，有限的多样性和降低的控制灵活性。这些挑战是由当前的端到端介绍模型引起的，这些模型患有不准确的训练口罩，有限的前景语义理解，数据分布偏见以及视觉和文本提示之间的固有干扰 ...

0 0 0 2025/04/08 arXiv:2404.18598v2 kangningfei

Modeling Stereo-Confidence Out of the End-to-End Stereo-Matching Network via Disparity Plane Sweep

我们提出了一种新颖的立体信心，可以在各种立体匹配网络上进行外部测量，从而为基于学习的方法（尤其是在安全至关重要的系统中）提供了替代的输入方式选择成本量。基于差异定义的基础概念和差异平面扫描，所提出的立体信仰方法构建在以下想法的观念上：即立体形象对中的任何变化都应以相应的数量变化为单位映射。基于这个想法，可以将提出的立体信仰方法汇总为三倍 ...

0 0 0 2025/04/08 arXiv:2401.12001v2 sxwnwxz

Introducing v0.5 of the AI Safety Benchmark from MLCommons

本文介绍了AI安全基准的V0.5，该基准是由MLCommons AI安全工作组创建的。 AI安全基准旨在评估使用聊天型语言模型的AI系统的安全风险 ...

0 0 4 2025/04/08 arXiv:2404.12241v2 123hhloss

Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning

面向推理的增强学习（RORL）增强了大语言模型（LLMS）的推理能力。但是，由于RORL奖励的稀疏性，有效的培训高度取决于选择适当难度的问题。尽管课程学习试图通过调整难度来解决这一问题，但它通常依赖于静态时间表，即使是最近的在线过滤方法也缺乏理论基础和对其有效性的系统理解 ...

0 0 0 2025/04/08 arXiv:2504.03380v1 chrisxiong

SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

在预先训练的自然语言处理模型中T5（文本到文本传输 Transformer ）成功的激励，我们提出了一个统一的模式speckt5框架，该框架探讨了编码器核对编码器预训练的预培训，以进行自我监督的语音/文本表示学习。 SECTERT5框架由共享的编码器网络和六个模态特异性（语音/文本）pre/post-nets组成。通过预网络预处理输入语音/文本后，共享的编码器 - 码头网络对序列到序列转换进行建模 ...

0 0 0 2025/04/08 arXiv:2110.07205v3 王文辉

PaperBench: Evaluating AI's Ability to Replicate AI Research

我们介绍了PaperBench，这是一种评估AI代理复制最新AI研究能力的基准。代理必须从头开始复制20个ICML 2024聚光灯和口头纸，包括了解纸张贡献，开发代码库以及成功执行实验。为了进行客观的评估，我们开发了将每个复制任务分层分解为具有明确评分标准的较小子任务 ...

0 0 0 2025/04/08 arXiv:2504.01848v3 yanlinghansd

CityPersons: A Diverse Dataset for Pedestrian Detection

Convnets最近在行人检测方面取得了重大进展，但是关于合适的架构和培训数据仍然有开放的问题。我们重新访问CNN的设计并指出关键改编，使Plain farstrcnn能够在CalTech数据集中获得最新的结果。为了从越来越多的数据获得进一步的改进，我们介绍了CityPersons，这是CityScapes数据集之外的一组新人注释 ...

0 0 0 2025/04/08 arXiv:1702.05693v1 武切维奇五千万

CrowdHuman: A Benchmark for Detecting Human in a Crowd

近年来，人类的发现取得了令人印象深刻的进步。但是，在高度拥挤的环境中检测人的遮挡问题远未解决。更糟糕的是，人群的场景在当前的人类检测基准中仍然不足 ...

0 0 0 2025/04/08 arXiv:1805.00123v1 武切维奇五千万

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）