扩散模型表现出强大的生成能力,可通过反向随机微分方程将噪声映射到数据。但是,在图像恢复中,重点是从低质量到高质量图像的映射关系。关于这个问题,我们介绍了广义的Ornstein-Uhlenbeck桥(GOUB)模型 ...
本文解决了在嘈杂和混响环境中单个语音源的双耳定位问题。对于给定的双耳麦克风设置,对应于单个源的直接路径传播的双耳响应是源方向的函数。实际上,这种反应受到噪音和混响的污染 ...
在大型生物分子的3D结构上学习正在成为机器学习中的一个独特领域,但是尚未出现统一的网络体系结构,同时利用问题域的图形结构和几何方面。为了解决这一差距,我们引入了几何矢量感知器,该矢量感知器扩展了标准密集层以在欧几里得矢量的集合上操作。配备了此类层的图形神经网络能够对大分子结构的有效和自然表示同时进行几何和关系推理 ...
这是一本关于大语言模型的书。如标题所示,它主要关注基础概念,而不是对所有尖端技术的全面覆盖。这本书构成了四个主要章节,每个章节都探索一个关键领域:预训练,生成模型,提示技术和对齐方法 ...
本文介绍了Goku,这是一个最先进的联合图像和视频生成模型,利用了整流的流动 Transformer 来实现行业领先的绩效。我们详细介绍了实现高质量视觉生成的基础元素,包括数据策划管道,模型体系结构设计,流程配方和高级基础架构,以进行高效且稳健的大规模培训。 Goku模型在定性和定量评估中都表现出卓越的性能,从而在主要任务中设定了新的基准测试 ...
我们介绍了一个模板指导的知识提取系统Oneke,它可以从Web和Raw PDF书籍中提取知识,并支持各种领域(科学,新闻等)。具体来说,我们设计了具有多种代理和配置知识库的Oneke ...
标准化流是一类深入生成模型,对于在物理学中建模概率分布特别有趣,其中流量的确切可能性允许将已知的目标能量功能和计算无偏见的可观察到的可观察到的可观察力重新重量。例如,Boltzmann发电机通过训练流量来解决统计物理中的长期采样问题,以生成多体系统(例如小分子和蛋白质)的平衡样品。为了为此类系统建立有效的模型,将目标能量的对称性纳入模型至关重要,这可以通过均衡的连续归一化流(CNF)来实现 ...
我们提出了一种将视觉生成模型(无论是图像和视频生成)与人类偏好相结合的一般策略。首先,我们构建了VisionReward,这是一种精细的和多维的奖励模型。我们将图像和视频中的人类偏好分解为多个维度,每个维度都由一系列判断问题表示,并将加权加权并求和到可解释和准确的分数 ...