扩散模型的快速发展已经催化了图像生成领域的显着进步。但是,流行的模型,例如Flux,SD3.5和Midjourney,仍然努力应对模型偏见,有限的文本渲染能力以及对中国文化细微差别的理解不足 ...
动态 3D 交互在最近的作品中引起了人们的极大兴趣,但创建此类 4D 内容仍然具有挑战性。一种解决方案是通过基于物理的模拟来制作 3D 场景动画,另一种解决方案是通过视频生成模型的提炼来学习静态 3D 对象的变形。前一种需要为目标对象分配精确的物理属性,否则模拟结果会变得不自然 ...
本文提出了一个推荐系统,以减轻启动的寒冷问题,该问题只能根据少数项目估算用户偏好。为了确定用户在寒冷状态下的偏好,现有的推荐系统(例如Netflix)最初向用户提供项目;我们称这些项目为候选人。然后根据用户选择的项目提出建议 ...
现有的端到端语音大语模型(LLM)通常依赖大规模注释的数据进行培训,而尚未深入讨论数据效率的培训。我们专注于语音和文本之间的两个基本问题:表示空间差距和序列长度不一致。我们提出了Soundwave,它利用有效的培训策略和新颖的体系结构来解决这些问题 ...
基于树木的机器学习模型,例如随机森林,决策树和梯度增强的树是当今实践中使用的最流行的非线性预测模型,但是对解释其预测的关注很少。在这里,我们通过三个主要贡献可以显着提高基于树的模型的解释性:1)基于游戏理论来计算最佳解释的第一个多项式时间算法。 2)一种直接测量局部特征相互作用效果的新型解释 ...
大型语言模型在复杂的文本任务中表现出了显着的推理能力。但是,需要集成视觉和文本信息的多模式推理仍然是一个重大挑战。现有的视觉语言模型通常难以有效地分析和推理视觉内容,从而在复杂的推理任务上表现出色 ...
教授大型语言模型(LLM)来批评和完善其产出,对于可以迭代改进的建筑系统至关重要,但它在根本上受到提供准确的判断和可行建议的能力的限制。 In this work, we study LLM critics for code generation and propose $\texttt{CTRL}$, a framework for $\texttt{C}$ritic $\texttt{T}$r ...
地震作为自然现象,一直在历史上不断造成人类生命的损害和丧失。地震预测是任何社会计划的重要方面,可以增加公众准备并在很大程度上减少损害。然而,由于地震的随机特征以及实现高效且可靠的地震预测模型的挑战,到目前为止,努力不足,需要新的方法来解决这一问题 ...