对文本到图像扩散 Transformer 模型(DIT)的细粒度控制仍然是实际部署的关键挑战。尽管诸如Ominicontrol等最新进展已经实现了可控的不同控制信号,但在处理较长的条件输入时,这些方法遇到了明显的计算效率。我们提出了aminicontrol2,这是一个有效的框架,可实现有效的图像条件形象生成 ...
人类使用自然语言描述物理世界,以基于广泛的特性来指代特定的3D位置:视觉外观,语义,抽象关联或可行的负担。在这项工作中,我们建议语言嵌入式辐射字段(LERFS),这是一种从剪辑中嵌入语言嵌入语言嵌入的方法,例如剪辑到NERF中,这使这些类型的开放式语言查询能够在3D中进行。 LERF通过在训练射线上渲染夹子嵌入夹夹来学习NERF内部密集的多尺度语言字段,从培训视图中监督这些嵌入,以提供多视图一致性 ...
准确的运动预测对于安全自主驾驶(AD)至关重要。这项研究提出了COT-DRIVE,这是一种新颖的方法,通过利用大型语言模型(LLM)和一系列经营链(COT)提示方法来增强运动预测。我们引入了一种教师知识蒸馏策略,以有效地将LLMS的高级场景理解能力转移到轻量级语言模型(LMS),以确保COT-DRIVE实时在边缘设备上实时运行,同时保持全面的场景理解和概括能力 ...
我们提出了diffusionDet,这是一个新框架,它将对象检测制定为从噪声框到对象框的去噪扩散过程。在训练阶段,对象框从真实框扩散到随机分布,并且模型学习扭转这种噪声过程。在推理中,模型以渐进的方式将一组随机生成的框细化为输出结果... ...
先前的研究诊断了预先训练的语言模型(例如Bert,无需微调)的句子表示中的各向异性问题 ...
我们介绍了Meta Mlgym和Mlgym-Bench,这是一个新的框架和基准,用于评估和开发AI研究任务的LLM代理。这是第一个用于机器学习(ML)任务的健身房环境,为培训此类代理的增强学习(RL)算法提供了研究。 MLGYM基础由来自计算机视觉,自然语言处理,强化学习和游戏理论等不同领域的13种不同和开放式的AI研究任务组成 ...
潜在的游戏形成了一类非合作游戏,在许多实际情况下,可以保证单方面改进动态会融合。潜在的游戏方法已应用于各种无线网络问题,尤其是在各种渠道分配问题上。在本文中,引入了潜在游戏的属性,并全面讨论了被证明是潜在游戏的无线网络中的游戏 ...
在部署到现实世界条件时,无法看见的域的概括能力对于机器学习模型至关重要。我们研究了领域概括的具有挑战性的问题,即 ...