arxiv的文档

arxiv 南京

个性签名 ...

Plotinus: A Satellite Internet Digital Twin System

集成空间空地网络（Sagin）的开发需要复杂的卫星仿真工具，这些工具可以处理复杂，动态的拓扑并提供深入分析。现有的仿真平台面临着诸如在所有网络层的详细实施，实时响应和可扩展性的详细实施之类的挑战中挣扎。本文提出了一个基于卫星互联网仿真的微服务的数字双系统系统，即Plotinus，旨在解决这些问题 ...

0 0 0 0 2025/08/24 arXiv:2403.08515v2 huxuanjie

Recent Advances in Speech Language Models: A Survey

大型语言模型 (LLM) 最近引起了广泛关注，主要是因为它们在基于文本的交互方面的能力。然而，自然的人类交互通常依赖于语音，因此需要转向基于语音的模型。实现这一目标的一个简单方法涉及“自动语音识别（ASR）+ LLM + 文本到语音（TTS）”的管道，其中输入语音被转录为文本，由 LLM 处理，然后转换回语音 ...

0 0 0 0 2025/08/24 arXiv:2410.03751v4 lichenbook

xDeepServe: Model-as-a-Service on Huawei CloudMatrix384

扩展的LLM和扩大超级点的兴起在大规模AI基础架构中标志着一个新时代。如DeepSeek，Kimi和Qwen等最新模型中所示，LLMS继续通过MOE扩展。同时，AI硬件正在扩大扩展，华为的CloudMatrix384 SuperPod提供了数百个GB/S高速互连 ...

0 0 0 0 2025/08/24 arXiv:2508.02520v5 aloha

Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

机器人操纵是机器人技术和体现AI的关键边界，需要精确的运动控制和多模式理解，但是传统的基于规则的方法无法在非结构化的新颖环境中扩展或概括。近年来，基于在庞大的图像文本数据集中预定的大型视觉模型（VLM）建立的视觉语言动作（VLA）模型已成为一种变革性的范式。这项调查提供了针对机器人操作的大型基于VLM的VLA模型的首次系统，面向分类学的评论 ...

0 0 0 0 2025/08/24 arXiv:2508.13073v1 uu2222

Unveiling the Ignorance of MLLMs: Seeing Clearly, Answering Incorrectly

多模式大语言模型（MLLM）在多模式任务中表现出了出色的性能，尤其是在视觉理解中。但是，我们揭示MLLM即使了解视觉内容也会产生错误的答案。为此，我们手动构建一个具有12个类别和设计评估指标的基准，即使看似了解视觉内容，也可以评估MLLM响应的误差程度 ...

0 0 0 0 2025/08/24 arXiv:2406.10638v3 zyj00

Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation

基于Transformer的大型语言模型（LLM）在生成任务中表现出令人印象深刻的性能，但由于昂贵的计算优化加速器的使用效率低下，给现实世界的服务带来了巨大的挑战。这不匹配由LLM的自回归性质引起的，其中生成阶段包括具有不同资源需求的关系。具体来说，注意力算子是内存密集型的，表现出与现代加速器的优势相冲突的内存访问模式，特别是是当上下文长度增加时... ...

0 0 0 0 2025/08/24 arXiv:2405.01814v2 tea5

Calibrated Language Models Must Hallucinate

最近的语言模型产生了带有惊人频率的虚假但合理的文本。这种“幻觉”是基于语言的AI系统可用性的障碍，并可能损害依靠其产出的人。这项工作表明，鉴于验证的语言模型会幻觉某些类型的事实，与 Transformer LM架构或数据质量无关 ...

0 0 0 0 2025/08/24 arXiv:2311.14648v3 zyj00

Diffusion-TS: Interpretable Diffusion for General Time Series Generation

去噪扩散概率模型（DDPM）正在成为生成模型的领先范例。它最近在音频合成、时间序列插补和预测方面取得了突破。在本文中，我们提出了 Diffusion-TS，一种基于扩散的新型框架，它通过使用具有解纠缠时间表示的编码器-解码器变换器来生成高质量的多元时间序列样本，其中分解技术指导 Diffusion-TS 捕获语义时间序列的含义，而 Transformer 从噪声模型输入中挖掘详细的序列信息 ...

0 0 0 0 2025/08/24 arXiv:2403.01742v3 ligang_

Converting Anyone's Voice: End-to-End Expressive Voice Conversion with a Conditional Diffusion Model

富有表现力的语音转换（VC）通过共同转换扬声器的身份和情感风格来为情感演讲者进行扬声器身份转换。尚未广泛探索表达VC中任意说话者的情感风格建模。先前的方法依赖于语音重建的辅助作品，这使语音质量在很大程度上取决于声码器的性能 ...

0 0 0 0 2025/08/24 arXiv:2405.01730v1 jack_j

Exploring Explanations Improves the Robustness of In-Context Learning

在利用大型语言模型（LLMS）的成功范式中出现了文化学习（ICL）。但是，它常常努力概括提供的示范的分布。通过解释（X-ICL），ICL的最新进步是通过指导LLM来理解和表达正确标签背后的推理来提高预测可靠性 ...

0 0 0 0 2025/08/24 arXiv:2506.02378v1 Cauchy