一译 —— 文档和论文翻译、对照阅读、讨论和社区

BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation

本文介绍了Bemaganv2的教程风格的调查和实施指南，该指南是一种高级基于GAN的Vocoder，旨在高保真和长期音频生成。 Bemaganv2建立在原始的Bemagan建筑基础上，结合了主要的建筑创新，它通过用抗氧化的多周期性组成（AMP）模块代替发电机中的传统重塑，该模块将Snake Activation功能应用于更好的周期性结构。在歧视框架中，我们集成了我们最初提出的一种新型体系结构的多层 ...

0 0 2 2025/06/12 arXiv:2506.09487v1 13724122396

MCP-Zero: Proactive Toolchain Construction for LLM Agents from Scratch

函数呼叫使大型语言模型（LLMS）能够充当使用工具的代理，但是将数千个工具模式注入提示是昂贵且容易出错的。我们介绍了MCP-Zero，这是一种主动的代理框架，使LLM本身可以决定何时以及要检索哪些外部工具，从而从头开始组装特定于任务的工具链。该框架建立在三个组件上：（1）主动工具请求，该模型在其中排放了结构化的$ \ left <\ operatatorName {tool \ _ assista ...

0 0 0 2025/06/12 arXiv:2506.01056v2 shilu

Robust Box Prompt based SAM for Medical Image Segmentation

在高质量框提示下，任何模型（SAM）的任何模型（SAM）都可以实现令人满意的细分性能。但是，山姆的鲁棒性因盒子质量的下降而损害，从而限制了其在临床现实中的实用性。在这项研究中，我们提出了一个基于新颖的稳健盒提示的SAM（\ textbf {robox-sam}），以确保在具有不同品质的提示下的SAM分割性能 ...

0 0 0 2025/06/12 arXiv:2407.21284v1 mixiu

Learning Multi-view Anomaly Detection

这项研究探讨了最近提出的具有挑战性的多视图异常检测（AD）任务。单视图任务将从其他角度遇到盲点，从而导致样本级预测的准确性。因此，我们介绍了\ textbf {m} ulti-\ textbf {v} iew \ textbf {a} nomaly \ textbf {d} et eTection（\ textbf {mvad}）框架，该框架从多视图中学习和集成了功能 ...

0 0 0 2025/06/12 arXiv:2407.11935v1 lzx

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

导航动态城市环境对体现的代理提出了重大挑战，需要先进的空间推理和遵守常识性规范。尽管取得了进展，但现有的视觉导航方法在无地图或街道外设置中挣扎，从而限制了诸如最后一英里交付机器人之类的自主代理的部署。为了克服这些障碍，我们提出了一种可扩展的，数据驱动的方法，通过培训代理商在数千个小时的野外城市步行和驱动从网络中提出的视频进行培训 ...

0 0 0 2025/06/12 arXiv:2411.17820v3 Eziotic

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

在这项工作中，我们介绍了QWEN3嵌入式系列，这是对其前身GTE-QWEN系列的重大进步，它是基于QWEN3基础模型的文本嵌入和重新固定功能。利用QWEN3 LLMS在多语言文本理解和产生中的强大功能，我们的创新性多阶段培训管道将大规模无监督的预训练与高质量数据集中有监督的微调结合在一起。有效的模型合并策略进一步确保了QWEN3嵌入序列的鲁棒性和适应性 ...

0 0 0 2025/06/12 arXiv:2506.05176v3 siweima

Distribution Prompting: Understanding the Expressivity of Language Models Through the Next-Token Distributions They Can Produce

自回归的神经语言模型（LMS）在给定提示的每个时间步骤都会产生 Token 的概率分布。在这项工作中，我们试图系统地了解LMS可以产生的概率分布，这表明某些分布比其他分布更难引起。具体来说，对于词汇上的任何目标下一分布，我们尝试使用基于软梯度的及时调整来找到一个提示，该提示可以诱导LM输出与目标的分布 ...

0 0 0 2025/06/12 arXiv:2505.12244v1 xumeng_paper

Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation

基于自然语言指示的看不见的环境对于视力和语言导航（VLN）中的以自然语言指示仍然很难。现有的方法主要依赖RGB图像来进行环境表示，使潜在的文本语义和空间提示不足，并在说明和稀缺的环境表示之间留下了方式差距。凭直觉，人类在室内导航期间内在的空间布局内固有地面语义知识 ...

0 0 0 2025/06/12 arXiv:2412.06465v4 gavin218

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）