我们提出了Riemannian流量匹配(RFM),这是一个简单而强大的框架,用于训练在歧管上连续归一化流。现有的用于流形的生成建模的方法要么需要昂贵的模拟,因此本质上无法扩展到高维度,或者使用近似值来限制数量,从而产生偏见的训练目标。 Riemannian流量匹配绕过这些局限性,并比以前的方法具有多个优点:它在简单几何形状上是无模拟的,不需要差异计算,并以封闭形式计算其目标向量场 ...
成像主要断层区域的结构对于我们对地壳变形及其对地震危害的影响至关重要。研究这样的复杂区域提出了几个问题,包括由于地质单位的多样性以及地震造成的累积损害而导致的地震速度变化。常规迁移技术通常对可用速度模型非常敏感 ...
强化学习(RL)对培训LLM代理人进行了巨大的希望,以处理需要与外部环境进行多步交互的复杂,面向目标的任务。但是,将RL应用于这些代理任务时,一个关键的挑战来自延迟的奖励:反馈信号通常仅在完成整个任务后才获得。这使得将延迟的奖励分配给早期行动是非平凡的,从而提供了有关环境限制和阻碍代理培训的足够指导 ...
文本到SQL是一项具有挑战性的任务,涉及多个推理密集型子任务,包括自然语言理解,数据库架构理解和精确的SQL查询配方。现有的方法通常依靠具有归纳偏见的手工推理路径,从而限制其整体效率。以推理增强模型(例如DeepSeek R1和Openai O1)的成功的激励,它们有效地利用了奖励驱动的自我探索来增强推理能力和概括,我们提出了一套专门针对文本到SQL任务的新型部分奖励 ...
由于数据在医疗保健,教育,就业和生态学等领域的广泛积累,观察性研究的重要性不断增加。我们考虑回答反事实问题的任务,例如“如果她接受了另一种药物,该患者会降低血糖吗?”。我们为反事实推断提出了一种新的算法框架,该框架从域的适应和表示学习中汇集了思想 ...
本文提出了一个新型的序列到序列神经读物(S2SND)框架,以在线和离线扬声器诊断。它是从我们以前的目标扬声器语音活动检测系统的序列到序列架构开发的,然后通过解决两个关键问题而演变为新的诊断范式。 1)扬声器检测:拟议的方法可以利用部分给出的扬声器嵌入来发现未知的说话者并预测音频信号中的目标语音活动 ...
在大数据领域中,云边缘设备合作在工业场景中很普遍。但是,缺乏对与该领域数据管理相关的理论和方法的系统探索。本文深入研究了云边缘设备协作环境中数据存储和调度的子问题 ...
现代推荐系统旨在通过通常将排名作为一项针对预测CTR的分类任务来提高点击率(CTR)以获得更好的用户体验。但是,这种方法与跨不同领域的企业的实际目标之间存在差距。在视频推荐服务中,视频按需(VOD)的目标扩展到了仅仅鼓励点击的范围,而且还指导用户发现他们的真正兴趣,从而增加了观看时间 ...
视频大型语言模型(视频LLM)通过利用两阶段范式来取得了重大成功:在大规模视频文本数据上进行审计,以进行视觉语言对齐,然后进行监督的微调(SFT),以获得特定于任务的功能。但是,由于数据中的时间对应关系弱,并且在培训期间对下一步的预测范式的依赖,现有方法与时间推理困难。为了解决这些局限性,我们提出了Temple(时间偏好学习),这是一个系统的框架,可通过直接偏好优化(DPO)增强Video LLMS的时间推理功能 ...
现在,大型语言模型(LLMS)支持上下文窗口超过128K Token ,但这带有大量的内存需求和高推理延迟。量化可以减轻这些成本,但可能会降低性能。在这项工作中,我们在具有长输入(> 64K Token )和长形输出的任务上介绍了对量化LLM的第一个系统评估 ...