arxiv的文档

arxiv 南京

个性签名 ...

Controllable speech synthesis by learning discrete phoneme-level prosodic representations

在本文中，我们提出了一种使用直觉离散标签对F0和持续时间的音素级韵律控制的新方法。我们提出了一个无监督的韵律聚类过程，该过程用于从MultiSpeaker语音数据集中离散语音级别的F0和持续时间功能。这些功能作为韵律标签的输入序列馈送到韵律编码器模块，该模块增强了基于自回归注意力的文本到语音模型 ...

0 0 0 0 2025/08/05 arXiv:2211.16307v1 高一辰

Alzheimer's Disease Detection from Spontaneous Speech and Text: A review

在过去的十年中，研究了研究语音和语音分析作为检测神经退行性疾病（例如阿尔茨海默氏病）的一种手段的激增。许多研究表明，某些声学特征可用于区分正常的衰老和阿尔茨海默氏病，并且发现语音分析是检测阿尔茨海默氏症痴呆症的一种经济有效的方法。这篇综述的目的是分析基于语音的检测和对阿尔茨海默氏病的分类中使用的各种算法 ...

0 0 0 0 2025/08/05 arXiv:2307.10005v1 abala

Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling

大型语言模型（LLM）越来越多地以CPU，NPU和Integrated GPU在个人设备上的本地代理部署。但是，由于动态计算和内存需求，这种异质性的设备上的预测推论性能仍然具有挑战性。现有方法依赖于GPU基准测试或基于机器学习的潜伏期预测因子，这些预测因子通常是特定于硬件并且缺乏普遍性的 ...

0 0 0 0 2025/08/05 arXiv:2508.00904v1 jane88

ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models

大型语言模型 (LLM) 彻底改变了自然语言处理任务。然而，它们的实际应用受到大量内存和计算需求的限制。训练后量化（PTQ）被认为是加速 LLM 推理的有效方法 ...

0 0 0 0 2025/08/05 arXiv:2408.08554v3 zhangxinyu

SaviorRec: Semantic-Behavior Alignment for Cold-Start Recommendation

在推荐系统中，预测点击率（CTR）对于将用户与项目准确匹配至关重要。为了提高对冷启动和长尾项目的建议性能，最近的研究着重于利用项目多模式特征来模拟用户的兴趣。但是，获得项目的多模式表示依赖于复杂的预训练的编码器，这会导致与下游排名模型共同训练的不可接受的计算成本 ...

0 0 0 0 2025/08/05 arXiv:2508.01375v1 zw_data

The wall confronting large language models

我们表明，确定大语模型（LLM）表现的缩放定律严重限制了他们改善预测不确定性的能力。结果，提高其可靠性以符合科学询问的标准，通过任何合理的措施都是棘手的。我们认为，为LLM的许多学习能力提供了一种机制，即从高斯输入的能力中产生非高斯输出分布的能力很可能是其产生错误堆积的倾向的根基，随之而来的信息灾难和退化性AI行为 ...

0 0 0 0 2025/08/05 arXiv:2507.19703v2 kkkk

A Dynamic Allocation Scheme for Adaptive Shared-Memory Mapping on Kilo-core RV Clusters for Attention-Based Model Deployment

基于注意力的模型需要灵活的硬件，以管理具有不同算术强度和内存访问模式的不同内核。具有共享L1存储器的大型群集，这是一种常见的体系结构模式，由于在层次结构的PE-L1群集群群互连中的吞吐量减少，因此很难完全利用其处理元素（PE）。本文介绍了动态分配方案（DAS），这是一个运行时可编程的地址重建硬件单元，并与统一的内存分配器相结合，旨在最大程度地减少PES在多型Banked L1上的数据访问权限 ...

0 0 0 0 2025/08/05 arXiv:2508.01180v1 jane88

MiniMax-01: Scaling Foundation Models with Lightning Attention

我们介绍了Minimax-01系列，包括Minimax-Text-01和Minimax-Vl-01，它们与顶级模型相当，同时在处理更长的上下文中提供了卓越的功能。核心在于闪电的注意力及其有效的缩放。为了最大化计算能力，我们将其与专家（MOE）的混合物集成在一起，创建了一个与32位专家和4560亿个总参数的模型，其中45个 ...

0 0 0 0 2025/08/05 arXiv:2501.08313v1 13530361597

Unifying KV Cache Compression for Large Language Models with LeanKV

大型语言模型 (LLM) 表现出卓越的性能，但由于大量的内存需求而导致较高的服务成本，其中键值 (KV) 缓存是主要瓶颈。现有的 KV 缓存压缩方法，包括量化和修剪，都面临着诸如键和值的统一处理以及跨注意力头的静态内存分配等限制。为了应对这些挑战，我们引入了 LeanKV，一个统一的 KV 缓存压缩框架，通过三项创新在不影响准确性的情况下提高 LLM 服务效率：（1）Hetero-KV 量化，以比值更高的精度存储键，以反映它们对注意力计算； (2) 每头动态稀疏性，根据每个头和每个请求的 Token 重要性分配内存； (3)统一KV压缩，集成混合精度量化和选择性剪枝，以实现模型精度和内存效率之间的平滑权衡 ...

0 0 0 0 2025/08/05 arXiv:2412.03131v2 ck0123

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

最近，利用预先训练的视觉语言模型（VLM）来建筑视觉语言行动（VLA）模型已成为有效的机器人操纵学习的有前途的方法。但是，只有很少的方法将3D信号纳入VLMS进行动作预测，并且它们不能完全利用3D数据中固有的空间结构，从而导致样品效率较低。在本文中，我们介绍了BridgeVla，这是一种新颖的3D VLA模型，该模型（1）将3D输入投影到多个2D图像，确保输入与VLM骨架的输入对齐，（2）利用2D热图进行动作预测，统一输入和输出空间一致的2D图像空间 ...

0 0 0 0 2025/08/05 arXiv:2506.07961v1 15241278181