一译 —— 文档和论文翻译、对照阅读、讨论和社区

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

语音大语言模型（LLM）已成为语音处理中的重要研究重点。我们介绍了Vocalnet-1b和Vocalnet-8B，这是一系列高性能，低延迟的语音LLM，该LLM通过设计用于实时语音交互的可扩展和模型的型号训练框架。我们贡献的核心是多token预测（MTP）对语音LLM的首次应用 ...

0 0 0 2025/04/24 arXiv:2504.04060v2 liangmin0020

Circumventing shortcuts in audio-visual deepfake detection datasets with unsupervised learning

良好的数据集对于开发和基准测试任何机器学习系统至关重要。它们的重要性对于安全关键应用程序（例如DeepFake检测）更为极端 - 本文的重点。在这里，我们揭示了两个最广泛使用的音频录像带数据集遭受了以前未知的虚假特征：领先的沉默 ...

0 0 0 2025/04/24 arXiv:2412.00175v2 13080420360

Interpreting and Unifying Graph Neural Networks with An Optimization Framework

图形神经网络（GNN）已对各种任务的图形结构数据学习受到了广泛关注。精心设计的传播机制已证明有效是GNN的最基本部分。尽管大多数GNN基本上都遵循信息传递的方式，但已经努力发现和分析其基本关系 ...

0 0 0 2025/04/24 arXiv:2101.11859v1 xixiaixixi

Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models

最近，AIGC的快速发展显着促进了假媒体在互联网中传播的多样性，对社会保障，政治，法律等构成了前所未有的威胁，以检测到AIGC的新时代中不断增加的恶意媒体，最近的研究曾提出，提议为多个范围而设计范围，以促进其范围内的范围，以设计范围，以设计其范围内的范围。但是，它仍然缺乏全面的基准测试，旨在全面评估LVLMS在伪造媒体上的敏锐能力 ...

0 0 0 2025/04/24 arXiv:2503.15024v2 13080420360

Graph Unrolling Networks: Interpretable Neural Networks for Graph Signal Denoising

我们提出了一个可解释的图形神经网络框架，以降低单个或多个嘈杂的图形信号。提出的图形展开网络将算法展开向图域展开，并从信号处理的角度提供架构设计的解释。我们通过将每次迭代映射到一个网络层中来展开迭代授权算法，在该网络层中，馈送前进过程等同于迭代的denoing图形信号 ...

0 0 0 2025/04/24 arXiv:2006.01301v1 xixiaixixi

$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization

为了使机器人有用，他们必须在实验室之外的现实世界中执行实际相关的任务。虽然视觉语言动作（VLA）模型对端到端机器人控制显示出令人印象深刻的结果，但仍然存在一个悬而未决的问题，这种模型可以在野外概括多远。我们描述$ \ pi_ {0 ...

0 0 0 2025/04/24 arXiv:2504.16054v1 蔡明方

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation

最近， Transformer 的规模迅速发展，这在训练开销和任务适应范围的推理效率方面引入了巨大的挑战。现有的作品，即参数有效的微调（PEFT）和模型压缩，已分别研究了挑战。但是，PEFT无法保证原始主链的推理效率，尤其是对于大型型号 ...

0 0 0 2025/04/24 arXiv:2403.09192v4 link.yu

Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models

学习从人类视频中执行操纵任务是一种教学机器人的有前途的方法。但是，许多操纵任务都需要在任务执行过程中更改控制参数，例如force，仅视觉数据无法捕获。在这项工作中，我们利用传感设备（例如测量人类肌肉活动和记录声音的麦克风，捕获人体操纵过程中的细节）等臂章，并使机器人能够提取任务计划和控制参数来执行相同的任务 ...

0 0 0 2025/04/24 arXiv:2504.13351v1 odenkkk

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）