在本文中,我们在理论驱动的框架内统一了10多种现有的一步扩散蒸馏方法,例如Diff-Instruct,DMD,SIM,SID,SID,$ F $ -DISTILL等,我们将其命名为\ textbf {\ emph {uni-Instruct}}}。 Uni-Instruct是由我们提出的$ f $ divivergence家族扩散扩展理论的动机。然后,我们介绍关键理论,以克服原始扩展的$ f $  ...
0 0 0 2025/06/05 arXiv:2505.20755v1 wonders
人类与世界互动,同时利用精确的全身控制来实现多功能目标。这种多功能性使他们可以通过无缝测序的动作(例如接近杯子,抓住,运输,然后将其放在水槽中)来解决长途,指定的问题,例如将杯子放入水槽中。这种目标驱动的控制可以为动画系统提供新的程序工具,使用户能够定义部分目标,而系统自然``填写''中间动作 ...
0 0 0 2025/06/05 arXiv:2505.19086v1 yukun
绝大多数成功的深神经网络都是使用随机梯度下降(SGD)算法的变体训练的。最新改善SGD的尝试可以广泛地分为两种方法:(1)自适应学习率方案,例如Adagrad和Adam,以及(2)加速方案,例如重球和Nesterov动量。在本文中,我们提出了一种新的优化算法LookAhead,它与这些先前方法正交,并且迭代地更新了两组重量 ...
0 0 0 2025/06/05 arXiv:1907.08610v2 aloha
细粒度的视频字幕旨在生成视频内容的详细的,暂时的连贯描述。但是,现有方法难以捕获微妙的视频动态和丰富的详细信息。在本文中,我们利用偏好学习来增强视频视频字幕中视觉模型的性能,同时减轻直接偏好优化(DPO)固有的几个局限性 ...
0 0 0 2025/06/05 arXiv:2506.00835v1 2889932594
最近,最先进的文本到图像生成模型,例如Flux和Isex 2.0,在句子级的视觉文本渲染方面取得了重大进展。在本文中,我们关注文章级视觉文本渲染的更具挑战性的场景,并根据用户提供的文章级描述提示和超密集的布局来解决生成高质量业务内容的新任务,包括信息图表和幻灯片 ...
0 0 0 2025/06/05 arXiv:2503.20672v1 13718039169
视觉深度强化学习(RL)使机器人可以从视觉输入中获取技能以进行非结构化任务。但是,当前算法的样本效率低,限制了其实际适用性。在这项工作中,我们介绍了导师,该方法可以改善RL代理的体系结构和优化 ...
0 0 0 2025/06/05 arXiv:2410.14972v2 晚餐杀手
大型语言模型(LLM)在文本,推理和决策中表现出色,使其能够在医疗保健,法律和运输等高风险领域中采用。但是,它们的可靠性是一个主要问题,因为它们通常会产生合理但不正确的响应。不确定性定量(UQ)通过估计对产出的信心,降低风险和选择性预测来增强可信度 ...
0 0 0 2025/06/05 arXiv:2503.15850v2 shaoningning
知识编辑已越来越多地采用,以纠正大语言模型(LLMS)中的错误或过时的知识。同时,一个关键但不足的问题是:可以使用知识编辑将危害注入LLMS?在本文中,我们建议将知识编辑重新制定为对LLM的新型安全威胁,即编辑攻击,并与新建的数据集Editattack进行系统调查。具体而言,我们专注于两个典型的编辑攻击的典型安全风险,包括误导性注射和偏置注射 ...
0 0 0 2025/06/05 arXiv:2407.20224v3 dm616703

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)