社交媒体平台是跨不同方式传播,意见表达和公众参与的中心枢纽。准确地预测社交媒体视频的普及,可以在内容建议,趋势检测和受众参与度中提供宝贵的应用程序。在本文中,我们提出了多模式视频预测器(MVP),这是我们对2025年SMP挑战赛视频曲目的获胜解决方案 ...
利用CPU为大型语言模型(LLMS)服务是GPU服务的资源友好替代品。现有的基于CPU的解决方案忽略了LLM推理的预填充和解码阶段之间的工作负载差异,应用了静态的人均(非均匀内存访问)节点模型分区,并利用供应商库进行操作员级执行,这是次优的。我们提出了Sandwich,这是一种以硬件为中心的LLM Serving Engine,它为预填充和解码阶段使用不同的执行计划,并分别优化它们 ...
设计有效的提示可以使 LLM 了解用户偏好,并利用 LLM 的意图理解和知识利用能力提供建议。然而,现有的研究主要集中在任务提示上,开发由四种模式组成的固定提示模板(即: ...
延迟的反馈问题是在线广告中遇到的挑战之一,这是由于转换的高度多样化的反馈延迟从几分钟到几天不等。对于不同类型的广告和用户,很难在这些非相同延迟下设计适当的在线学习系统。在本文中,我们建议通过“跟随先知”(简称FTP)解决在线广告中延迟的反馈问题 ...
基于图表的多任务学习在十亿尺度提出了一个重大挑战,因为不同的任务对应于不同的十亿个尺度图。传统的多任务学习方法通常忽略了这些图形结构,仅依靠个人用户和项目嵌入。但是,无视图形结构可忽略提高性能的巨大潜力 ...
尽管在增加自动语音识别的语言覆盖范围方面的迅速进步,但该领域仍然远远没有用已知的写作脚本涵盖所有语言。最近的工作显示出令人鼓舞的结果,零射击方法仅需要少量文本数据,但是,准确性在很大程度上取决于使用的语言的质量,这对于看不见的语言通常很弱。在本文中,我们介绍了MMS零拍摄的一种基于罗马化的概念更简单的方法和一种与先前艺术相比,以1,078种不同语言或三个数量级的数据训练的声学模型 ...
变形金刚最近在计算机视觉社区中引起了极大的关注。但是,缺乏关于图像大小的自我注意力机制的可扩展性限制了它们在最先进的视觉骨架中的广泛采用。在本文中,我们介绍了一种高效且可扩展的注意模型,我们称之为多轴注意,该模型包括两个方面:阻止局部和扩张的全球关注 ...
本文介绍了Inversematrixvt3d,这是一种将多视图像特征转换为3D特征量的有效方法,用于3D语义占用预测。构造3D卷的现有方法通常依赖于深度估计,特定于设备的操作员或 Transformer 查询,从而阻碍了3D占用模型的广泛采用。相比之下,我们的方法利用两个投影矩阵存储静态映射关系和矩阵乘法,以有效地生成全球鸟类视图(BEV)特征和局部3D特征量 ...