由于固有的歧义和阻塞,单程3D人类的姿势估计非常具有挑战性,这通常会导致高度不确定性和不确定性。另一方面,扩散模型最近成为从噪声中产生高质量图像的有效工具。受其能力的启发,我们探索了一个新颖的姿势估计框架(扩散),该框架将3D姿势估计作为反向扩散过程 ...
我们提出了一个混合神经网络和物理框架,以减少弹性性和断裂的阶点建模。诸如材料点方法(MPM)之类的最先进的科学计算模型忠实地模拟了大型形式的弹性和断裂力学。但是,它们的长期运行时间和大型内存消耗使它们不适合受计算时间和内存使用限制的应用,例如 ...
扩散模型的快速发展已经催化了图像生成领域的显着进步。但是,流行的模型,例如Flux,SD3.5和Midjourney,仍然努力应对模型偏见,有限的文本渲染能力以及对中国文化细微差别的理解不足 ...
动态 3D 交互在最近的作品中引起了人们的极大兴趣,但创建此类 4D 内容仍然具有挑战性。一种解决方案是通过基于物理的模拟来制作 3D 场景动画,另一种解决方案是通过视频生成模型的提炼来学习静态 3D 对象的变形。前一种需要为目标对象分配精确的物理属性,否则模拟结果会变得不自然 ...
本文提出了一个推荐系统,以减轻启动的寒冷问题,该问题只能根据少数项目估算用户偏好。为了确定用户在寒冷状态下的偏好,现有的推荐系统(例如Netflix)最初向用户提供项目;我们称这些项目为候选人。然后根据用户选择的项目提出建议 ...
现有的端到端语音大语模型(LLM)通常依赖大规模注释的数据进行培训,而尚未深入讨论数据效率的培训。我们专注于语音和文本之间的两个基本问题:表示空间差距和序列长度不一致。我们提出了Soundwave,它利用有效的培训策略和新颖的体系结构来解决这些问题 ...
基于树木的机器学习模型,例如随机森林,决策树和梯度增强的树是当今实践中使用的最流行的非线性预测模型,但是对解释其预测的关注很少。在这里,我们通过三个主要贡献可以显着提高基于树的模型的解释性:1)基于游戏理论来计算最佳解释的第一个多项式时间算法。 2)一种直接测量局部特征相互作用效果的新型解释 ...
大型语言模型在复杂的文本任务中表现出了显着的推理能力。但是,需要集成视觉和文本信息的多模式推理仍然是一个重大挑战。现有的视觉语言模型通常难以有效地分析和推理视觉内容,从而在复杂的推理任务上表现出色 ...
文本到图像扩散模型在从文本提示中生成高质量内容方面取得了巨大的成功。但是,它们依赖公开可用的数据以及对微调的数据共享的增长趋势使这些模型特别容易受到数据中毒攻击的影响。在这项工作中,我们引入了无声的品牌攻击,这是一种新型的数据中毒方法,该方法操纵文本对图像扩散模型,以生成包含特定品牌徽标或符号的图像,而无需任何文本触发器 ...
教授大型语言模型(LLM)来批评和完善其产出,对于可以迭代改进的建筑系统至关重要,但它在根本上受到提供准确的判断和可行建议的能力的限制。 In this work, we study LLM critics for code generation and propose $\texttt{CTRL}$, a framework for $\texttt{C}$ritic $\texttt{T}$raining via $\texttt{R}$einforcement $\texttt{L}$earning, which trains a critic model to generate feedback that maximizes correction performance for a fixed没有人类监督的发电机模型。我们的结果表明,经过$ \ texttt {ctrl} $培训的评论家显着提高了通过率,并减轻基本和更强的发电机模型的复合错误 ...