实时和高性能3D对象检测在自动驾驶和机器人技术中起着至关重要的作用。最近基于支柱的3D对象探测器由于其紧凑的表示和低计算开销而引起了人们的关注,因此它们适合于车载部署和量化。但是,现有的基于支柱的检测器仍然沿高度尺寸损失信息损失,并且在支柱特征编码(PFE)期间的数值差异很大,这严重限制了其性能和量化潜力 ...
粗颗粒可重构阵列(CGRA)是域 - 不合稳定加速器,可提高资源约束的边缘设备的能效。 CGRA景观是多种多样的,在性能,效率和建筑专业化之间表现出权衡。但是,CGRA通常相对于其适度的计算功能过度提供通信资源 ...
人工智能(AI)的最新进展已经产生了高度强大且可控制的系统。这为结构化推理以及多个AI系统和人类之间的协作创造了前所未有的机会。为了充分发挥这种潜力,必须开发一种设计和研究这种结构化相互作用的原则方法 ...
大语言模型(LLM)应用的激增引起了人们对误导或捏造信息的产生(称为幻觉)的担忧。因此,检测幻觉对于维持对LLM生成的内容的信任至关重要。学习真实分类器的主要挑战是缺乏大量标记的真实和幻觉的数据 ...
本地多模式大型语言模型(MLLM)将单个大语言模型(LLM)重组成能够语音和文本生成的口语模型(SLM)。与模块化和对齐的MLLM相比,本机MLLM保留了更丰富的副语言特征,例如情感和韵律,并直接在主干LLM中产生语音响应,而不是使用单独的语音解码器。这种整合还导致响应潜伏期较低,相互作用更平滑 ...
基于 Token 的语言建模是语音产生的一种突出方法,在该方法中,通过量化自我监管学习(SSL)模型(SSL)模型的特征并从神经语音编解码器中提取代码,通常称为语义 Token 和声音 Token 。这些 Token 通常是自动加压建模的,推理速度受 Token 速率的约束。 In this work, we propose DiffSoundStream, a solution that imp ...
在社交媒体推荐系统中,终身顺序建模(LSM)变得越来越重要,以预测向用户提供的项目的点击率(CTR)。此过程的核心是注意机制,它从用户序列中提取有关候选项目的兴趣表示。通常,注意机制以一种重点的方式运行,仅关注序列中各个项目与候选项目的相关性 ...
扩散模型的最新进展已使高质量的视频生成,但是额外的时间维度显着提高了计算成本,从而使长期视频的培训和推断非常昂贵。在本文中,我们确定了一种现象,我们在视频扩散模型中称呼时空能量衰减:随着 Token 之间的空间和时间距离增加,类似于自然界和时间上的信号衰减或自然界时间的物理衰减,柔软后的注意力评分会降低。在此激励的情况下,我们提出了径向关注,这是一种具有$ O(n \ log n)$复杂性的可扩展 ...