对文本到图像扩散 Transformer 模型(DIT)的细粒度控制仍然是实际部署的关键挑战。尽管诸如Ominicontrol等最新进展已经实现了可控的不同控制信号,但在处理较长的条件输入时,这些方法遇到了明显的计算效率。我们提出了aminicontrol2,这是一个有效的框架,可实现有效的图像条件形象生成 ...
0 0 0 2025/03/19 arXiv:2503.08280v1 suxuefeng
人类使用自然语言描述物理世界,以基于广泛的特性来指代特定的3D位置:视觉外观,语义,抽象关联或可行的负担。在这项工作中,我们建议语言嵌入式辐射字段(LERFS),这是一种从剪辑中嵌入语言嵌入语言嵌入的方法,例如剪辑到NERF中,这使这些类型的开放式语言查询能够在3D中进行。 LERF通过在训练射线上渲染夹子嵌入夹夹来学习NERF内部密集的多尺度语言字段,从培训视图中监督这些嵌入,以提供多视图一致性 ...
0 0 0 2025/03/19 arXiv:2303.09553v1 guoweichao87
准确的运动预测对于安全自主驾驶(AD)至关重要。这项研究提出了COT-DRIVE,这是一种新颖的方法,通过利用大型语言模型(LLM)和一系列经营链(COT)提示方法来增强运动预测。我们引入了一种教师知识蒸馏策略,以有效地将LLMS的高级场景理解能力转移到轻量级语言模型(LMS),以确保COT-DRIVE实时在边缘设备上实时运行,同时保持全面的场景理解和概括能力 ...
0 0 0 2025/03/19 arXiv:2503.07234v1 yc
我们提出了diffusionDet,这是一个新框架,它将对象检测制定为从噪声框到对象框的去噪扩散过程。在训练阶段,对象框从真实框扩散到随机分布,并且模型学习扭转这种噪声过程。在推理中,模型以渐进的方式将一组随机生成的框细化为输出结果... ...
0 0 0 2025/03/19 arXiv:2211.09788v2 riho
先前的研究诊断了预先训练的语言模型(例如Bert,无需微调)的句子表示中的各向异性问题 ...
0 0 0 2025/03/19 arXiv:2305.10786v2 haoyb22
我们介绍了Meta Mlgym和Mlgym-Bench,这是一个新的框架和基准,用于评估和开发AI研究任务的LLM代理。这是第一个用于机器学习(ML)任务的健身房环境,为培训此类代理的增强学习(RL)算法提供了研究。 MLGYM基础由来自计算机视觉,自然语言处理,强化学习和游戏理论等不同领域的13种不同和开放式的AI研究任务组成 ...
0 0 0 2025/03/19 arXiv:2502.14499v1 tmylla
潜在的游戏形成了一类非合作游戏,在许多实际情况下,可以保证单方面改进动态会融合。潜在的游戏方法已应用于各种无线网络问题,尤其是在各种渠道分配问题上。在本文中,引入了潜在游戏的属性,并全面讨论了被证明是潜在游戏的无线网络中的游戏 ...
0 0 0 2025/03/19 arXiv:1506.07942v1 moonie
在部署到现实世界条件时,无法看见的域的概括能力对于机器学习模型至关重要。我们研究了领域概括的具有挑战性的问题,即 ...
0 0 0 2025/03/19 arXiv:1910.13580v1 Harry3790

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)