扩散模型在增强学习(RL)方面具有广泛的关注(RL),以表达其强大的表现力和多模式。已经验证的是,利用扩散策略可以通过克服单峰政策(例如高斯政策)的局限性,并为代理提供增强的勘探能力,从而显着改善RL算法在持续控制任务中的性能。但是,现有的作品主要集中在离线RL中扩散策略的应用,而将其纳入在线RL中的情况较少 ...
社交媒体平台是跨不同方式传播,意见表达和公众参与的中心枢纽。准确地预测社交媒体视频的普及,可以在内容建议,趋势检测和受众参与度中提供宝贵的应用程序。在本文中,我们提出了多模式视频预测器(MVP),这是我们对2025年SMP挑战赛视频曲目的获胜解决方案 ...
利用CPU为大型语言模型(LLMS)服务是GPU服务的资源友好替代品。现有的基于CPU的解决方案忽略了LLM推理的预填充和解码阶段之间的工作负载差异,应用了静态的人均(非均匀内存访问)节点模型分区,并利用供应商库进行操作员级执行,这是次优的。我们提出了Sandwich,这是一种以硬件为中心的LLM Serving Engine,它为预填充和解码阶段使用不同的执行计划,并分别优化它们 ...
设计有效的提示可以使 LLM 了解用户偏好,并利用 LLM 的意图理解和知识利用能力提供建议。然而,现有的研究主要集中在任务提示上,开发由四种模式组成的固定提示模板(即: ...
延迟的反馈问题是在线广告中遇到的挑战之一,这是由于转换的高度多样化的反馈延迟从几分钟到几天不等。对于不同类型的广告和用户,很难在这些非相同延迟下设计适当的在线学习系统。在本文中,我们建议通过“跟随先知”(简称FTP)解决在线广告中延迟的反馈问题 ...
基于图表的多任务学习在十亿尺度提出了一个重大挑战,因为不同的任务对应于不同的十亿个尺度图。传统的多任务学习方法通常忽略了这些图形结构,仅依靠个人用户和项目嵌入。但是,无视图形结构可忽略提高性能的巨大潜力 ...
尽管在增加自动语音识别的语言覆盖范围方面的迅速进步,但该领域仍然远远没有用已知的写作脚本涵盖所有语言。最近的工作显示出令人鼓舞的结果,零射击方法仅需要少量文本数据,但是,准确性在很大程度上取决于使用的语言的质量,这对于看不见的语言通常很弱。在本文中,我们介绍了MMS零拍摄的一种基于罗马化的概念更简单的方法和一种与先前艺术相比,以1,078种不同语言或三个数量级的数据训练的声学模型 ...
变形金刚最近在计算机视觉社区中引起了极大的关注。但是,缺乏关于图像大小的自我注意力机制的可扩展性限制了它们在最先进的视觉骨架中的广泛采用。在本文中,我们介绍了一种高效且可扩展的注意模型,我们称之为多轴注意,该模型包括两个方面:阻止局部和扩张的全球关注 ...