大型语言模型(LLM)越来越多地整合到用户的日常生活中,从而导致对个性化产出的需求不断增长。以前的工作着重于利用用户自己的历史记录,忽略了用户间差异,这些差异对于有效的个性化至关重要。尽管最近的工作试图建模这种差异,但对基于语言的提示的依赖通常会阻碍有效地提取有意义的区别 ...
基于传统相似性的模式匹配方法由于缺失常识性和特定于领域的知识而无法解决特定于领域的复杂映射场景中的语义歧义和冲突。大语言模型(LLM)的幻觉问题也使基于LLM的模式匹配以解决上述问题的挑战。因此,我们为模式匹配的基于知识的基于图形的检索增强生成模型,称为kg-rag4sm ...
用户生成的内容(UGC)视频的快速增长已经迫切需要有效的视频质量评估(VQA)算法来监视视频质量,并指导优化和建议程序。但是,当前的VQA模型通常只给出了UGC视频的总体评级,UGC视频缺少用于提供视频处理和推荐应用程序的细粒度标签。为了应对挑战并促进UGC视频的开发,我们建立了第一个被称为FineVD的大规模细粒视频质量评估数据库,该数据库包括6104个UGC视频,具有跨多个维度的质量分数和描述 ...
阿里巴巴的旅游营销平台在飞猪、淘宝、支付宝等数百种不同的旅游场景中发挥着不可或缺的作用。要为不同场景的用户提供个性化的推荐服务,有两个关键问题需要认真解决。首先,由于不同场景的流量特点,训练一个统一的模型来服务所有场景是非常具有挑战性的... ...
尽管神经渲染的进展,但由于高质量3D数据集的稀缺性以及多视图扩散模型的固有局限性,视图合成和3D模型的产生仅限于具有次优的多视图一致性的低分辨率。在这项研究中,我们提出了一种新颖的3D增强管道,称为3Denhancer,该管道采用多视图潜在扩散模型来增强粗3D输入,同时保留多视图一致性。我们的方法包括一个姿势感知的编码器和基于扩散的DeNoiser,以优化低质量的多视图图像,以及数据增强和具有外观 ...
我们介绍了Matrix-Game,这是一种可控游戏世界的互动世界基础模型。使用两阶段的管道对矩阵游戏进行了训练,该管道首先执行大规模的未标记预处理,以了解环境的理解,然后进行互动视频生成的动作标记培训。为了支持这一点,我们策划了Matrix-game-MC,这是一个全面的Minecraft数据集,其中包括超过2700个小时的未标记的游戏片段和超过1,000个小时的高质量标签夹,并带有精细的键盘和鼠 ...
我们将边界表示模型(B-REP)中的CAD模型的重建视为对不同阶的几何原语的检测,即顶点,边缘和表面斑块以及原始词的对应关系,这些基础的对应关系是整体上建模为链复合物的,并通过对这样的全面结构进行建模可以更完整和正则化的重新构造,以实现这一目标 ...
大型语言模型(LLM)最近在解决数学问题方面表现出了卓越的推理能力。为了进一步提高他们的推理能力,这项工作探讨了 LLM 是否可以从 MistAkes (LEMA) 中学习,类似于人类的学习过程。考虑一个未能解决数学问题的人类学生,他将从他所犯的错误中学习以及如何纠正它 ...