arxiv的文档

arxiv 南京

个性签名 ...

Flows: Building Blocks of Reasoning and Collaborating AI

人工智能（AI）的最新进展已经产生了高度强大且可控制的系统。这为结构化推理以及多个AI系统和人类之间的协作创造了前所未有的机会。为了充分发挥这种潜力，必须开发一种设计和研究这种结构化相互作用的原则方法 ...

0 0 0 0 2025/06/30 arXiv:2308.01285v3 lovecoffee

HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection

大语言模型（LLM）应用的激增引起了人们对误导或捏造信息的产生（称为幻觉）的担忧。因此，检测幻觉对于维持对LLM生成的内容的信任至关重要。学习真实分类器的主要挑战是缺乏大量标记的真实和幻觉的数据 ...

0 1 0 0 2025/06/30 arXiv:2409.17504v1 mjwei

DeepTalk: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE

本地多模式大型语言模型（MLLM）将单个大语言模型（LLM）重组成能够语音和文本生成的口语模型（SLM）。与模块化和对齐的MLLM相比，本机MLLM保留了更丰富的副语言特征，例如情感和韵律，并直接在主干LLM中产生语音响应，而不是使用单独的语音解码器。这种整合还导致响应潜伏期较低，相互作用更平滑 ...

0 0 0 0 2025/06/30 arXiv:2506.21864v1 takkeri

DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding

基于 Token 的语言建模是语音产生的一种突出方法，在该方法中，通过量化自我监管学习（SSL）模型（SSL）模型的特征并从神经语音编解码器中提取代码，通常称为语义 Token 和声音 Token 。这些 Token 通常是自动加压建模的，推理速度受 Token 速率的约束。 In this work, we propose DiffSoundStream, a solution that improves the efficiency of speech tokenization in non-streaming scenarios through two techniques: (1) conditioning the neural codec on semantic tokens to minimize redundancy between semantic and acoustic tokens, and (2) leveraging latent diffusion models to synthesize high-quality waveforms from semantic and coarse-level acoustic tokens. ...

0 0 0 0 2025/06/30 arXiv:2506.22362v1 zhangqi33

Context-Aware Lifelong Sequential Modeling for Online Click-Through Rate Prediction

在社交媒体推荐系统中，终身顺序建模（LSM）变得越来越重要，以预测向用户提供的项目的点击率（CTR）。此过程的核心是注意机制，它从用户序列中提取有关候选项目的兴趣表示。通常，注意机制以一种重点的方式运行，仅关注序列中各个项目与候选项目的相关性 ...

0 0 0 0 2025/06/30 arXiv:2502.12634v2 xuwenlong

Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation

扩散模型的最新进展已使高质量的视频生成，但是额外的时间维度显着提高了计算成本，从而使长期视频的培训和推断非常昂贵。在本文中，我们确定了一种现象，我们在视频扩散模型中称呼时空能量衰减：随着 Token 之间的空间和时间距离增加，类似于自然界和时间上的信号衰减或自然界时间的物理衰减，柔软后的注意力评分会降低。在此激励的情况下，我们提出了径向关注，这是一种具有$ O（n \ log n）$复杂性的可扩展稀疏注意机制，它将能量衰减转化为指数衰减的计算密度，比标准$ O（N^2）$密集的注意力和表达性更高的效率要高得多 ...

0 0 0 0 2025/06/30 arXiv:2506.19852v1 zhangxinyu

Flows: Building Blocks of Reasoning and Collaborating AI

HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection

DeepTalk: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE

DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding

Context-Aware Lifelong Sequential Modeling for Online Click-Through Rate Prediction

Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation

Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder

Qwen2.5 Technical Report

ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals

Addressing Delayed Feedback in Conversion Rate Prediction via Influence Functions

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）