一译 —— 文档和论文翻译、对照阅读、讨论和社区

Ultra-lightweight Neural Differential DSP Vocoder For High Quality Speech Synthesis

神经声码器对原始音频波形进行建模并合成高质量的音频，但是即使是MB-Melgan和LPCNet等高效的音频，也无法在诸如SmartGlass这样的低端设备上实时运行。纯数字信号处理（DSP）的Vocoder可以通过轻质快速傅立叶变换（FFT）实现，因此，比任何神经声码器都要快。 DSP Vocoder通常会由于消耗了声带的近似表示的过度平滑声学模型预测，因此通常会获得较低的音频质量 ...

0 0 0 2025/04/10 arXiv:2401.10460v1 Nitin525

Latent Multimodal Reconstruction for Misinformation Detection

多模式错误信息，例如误会图像，字幕歪曲图像的起源，上下文或含义在数字时代构成了日益严重的挑战。为了支持事实检查器，研究人员一直专注于创建数据集和开发多模式错误信息检测（MMD）的方法。由于大规模注释的MMD数据集的稀缺性，最近的研究通过神秘的图像映射对或指定的实体操纵来利用合成训练数据；更改名称，日期和位置 ...

0 0 0 2025/04/10 arXiv:2504.06010v1 zhoujiahui

Augmenting Image Annotation: A Human-LMM Collaborative Framework for Efficient Object Selection and Label Generation

传统的图像注释任务在很大程度上依赖于人类进行对象选择和标签分配的努力，从而使过程耗时并容易降低效率，因为注释者在大量工作后经历了疲劳。本文介绍了一个新颖的框架，该框架利用大型多模型模型（LMMS），尤其是GPT的视觉理解能力来协助注释工作流。在我们提出的方法中，人类注释者专注于通过边界框选择对象，而LMM自动生成相关标签 ...

0 0 0 2025/04/10 arXiv:2503.11096v1 zl1994

Improving Image Captioning by Mimicking Human Reformulation Feedback at Inference-time

将自动预测的人类反馈纳入训练生成模型的过程中引起了极大的兴趣，而推理时间的反馈受到了较少的关注。训练时间的典型反馈，即 ...

0 0 0 2025/04/10 arXiv:2501.04513v1 zl1994

A General Optimization-based Framework for Global Pose Estimation with Multiple Sensors

准确的状态估计是自主机器人的基本问题。为了实现局部准确且全球无漂移状态的估计，具有互补特性的多个传感器通常融合在一起。本地传感器（相机，IMU，LIDAR等）在一个小区域内提供精确的姿势，而全球传感器（GPS，磁力计，晴雨表等）提供嘈杂，但在大规模环境中无环形的定位 ...

0 0 0 2025/04/10 arXiv:1901.03642v1 lucian_p

Audio-Language Datasets of Scenes and Events: A Survey

音频模型（ALMS）生成了产生声音事件和场景的语言描述。数据集创建和计算能力的进步导致了该领域的重大进展。本文调查了用于训练施舍的69个数据集，涵盖了2024年9月（此HTTPS URL）的研究 ...

0 0 0 2025/04/10 arXiv:2407.06947v2 z520520115

Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment

大型语言模型（LLM）由于其非凡的自然语言能力而广泛采用。但是，在将它们部署在现实世界中时，重要的是要根据可接受的人体标准来使LLMS生成文本。诸如近端策略优化（PPO）和直接偏好优化（DPO）之类的方法在使用人类偏好数据来完善LLMS方面取得了重大进展 ...

0 0 0 2025/04/10 arXiv:2407.06443v1 hhhhh

Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

视频详细字幕（VDC）是视觉桥接的至关重要任务，可以对复杂的视频内容进行精细的描述。在本文中，我们首先全面地基准了当前的最新方法，并系统地确定了两个关键局限性：偏向于特定字幕方面的能力和与人类偏好的未对准。为了解决这些缺陷，我们提出了Cockatiel，这是一种新型的三阶段训练管道，它结合了合成和人类一致的培训，以改善VDC性能 ...

0 0 0 2025/04/10 arXiv:2503.09279v1 zl1994

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）