在快速发展的人工智能(AI)领域,生成式大语言模型(LLM)走在了最前沿,彻底改变了我们与数据交互的方式。然而,运用这些模型的计算强度和内存消耗对服务效率带来了巨大的影响的挑战,特别是在需要低延迟和高吞吐量的场景中。 这项从机器学习系统(MLSys)研究的高效调查的角度解决了对 LLM 服务方法的需求,提出了先进的人工智能创新和实用的系统优化的关键... ...

0 0 0 0 2025/10/20 arXiv:2312.15234v2 Harry3790

专家(MOE)的混合物(MOE)型号在商品硬件上部署时会面对内存和PCIE潜伏期瓶颈。将专家权重到CPU内存会导致PCIE传输延迟超过GPU计算几倍。我们提出了Prepcope,这是一个以预测为驱动的专家调度系统,该系统应对三个关键挑战:不准确的激活预测,PCIE带宽竞争和跨设备调度计划的复杂性 ...

0 0 0 0 2025/10/03 arXiv:2509.23638v1 Harry3790

由于在无监督的场景中增强模型的表示能力的能力,深度图聚类最近受到了极大的关注。然而,尚未充分探索时间图的深层聚类,这些时间表可以捕获至关重要的动态交互信息。这意味着在许多面向聚类的现实世界中,时间图只能作为静态图处理 ...

0 0 0 0 2025/10/03 arXiv:2305.10738v3 Harry3790

代码评论的旨在为代码段生成自然语言描述,以促进开发人员的计划理解活动。尽管研究了很长时间,但现有方法的瓶颈是给定代码段,他们只能生成一个评论,而开发人员通常需要从不同角度了解信息,例如该代码段的功能是什么以及如何使用。为了应对这一局限性,这项研究通过经验研究了利用大型语言模型(LLM)的可行性,以产生可以实现开发人员多样性意图的评论 ...

0 0 0 0 2025/10/03 arXiv:2304.11384v3 Harry3790

近年来,已经尝试增加卷积神经网(CNN)的内核大小,以模仿全球视觉变形金刚(VITS)自我注意力障碍的封锁领域。但是,这种方法在获得全球接收场之前迅速达到了上限和饱和的方式。在这项工作中,我们证明,通过利用小波变换(WT),实际上可以获得很大的接受场而不会遭受过度参数化的困扰,e ...

0 0 0 0 2025/05/20 arXiv:2407.05848v2 Harry3790

近年来,CNN和基于 Transformer 的方法在微观图像分类(MIC)方面取得了重大进展。但是,现有方法仍然面临着全球建模和有效计算之间的困境。虽然选择性状态空间模型(SSM)可以模拟具有线性复杂性的远程依赖性,但它仍然遇到MIC中的挑战,例如本地像素遗忘,通道冗余和缺乏本地知觉 ...

0 0 0 0 2025/05/19 arXiv:2409.07896v2 Harry3790

我们引入了一种用于内存神经网络的新结构,称为FeedForward顺序内存网络(FSMN),该结构可以在不使用复发反馈的情况下学习长期依赖性。提出的FSMN是一个标准的前馈神经网络,配备了隐藏层中可学习的顺序记忆块。在这项工作中,我们将FSMN应用于多个语言建模(LM)任务 ...

0 0 0 0 2025/05/16 arXiv:1510.02693v1 Harry3790

深层抑制(DNS)挑战旨在促进抑制噪声领域的创新,以实现优越的感知语音质量。这是第四次DNS挑战,以前的版本在Interspeech 2020,ICASSP 2021和Interspeech 2021举行。我们开放源数据集和测试集,用于研究人员培训其深层噪声抑制模型,以及基于ITU-T P.的主观评估框架 ...

0 0 0 0 2025/05/14 arXiv:2202.13288v1 Harry3790

在本文中,我们提出了一种新型的神经网络结构,即\ emph {feedforward顺序存储网络(FSMN)},以在不使用复发反馈的情况下对时间序列的长期依赖性进行建模。拟议的FSMN是标准完全连接的馈电神经网络,配备了其隐藏层中一些可学习的内存块。存储器块使用窃听的延迟线结构将长上下文信息编码为固定尺寸表示形式,作为短期内存机制 ...

0 0 0 0 2025/05/10 arXiv:1512.08301v2 Harry3790

言语增强已从深度学习的成功中受益,从可理解性和感知质量方面受益。常规的时频(TF)域方法着重于通过天真的卷积神经网络(CNN)或经常性神经网络(RNN)预测TF面罩或语音频谱。一些最近的研究使用复杂值谱图作为训练目标,但在实现的网络中进行训练,分别预测了相位成分或实际和虚构部分 ...

0 0 0 0 2025/05/10 arXiv:2008.00264v4 Harry3790