最近,文本到视频(T2V)的合成通过训练 Transformer 或大规模数据集的扩散模型经历了突破。 Nevertheless, inferring such large models incurs huge this http URL inference acceleration works either require costly retraining or are this http U ...
最近的工作表明,可以从立体声对的深度估计可以作为监督的学习任务配制,以通过卷积神经网络(CNN)解决。但是,当前的体系结构依赖于基于补丁的暹罗网络,缺乏利用上下文信息以在不张力区域查找信件的手段。为了解决这个问题,我们提出了PSMNet,这是一个由两个主要模块组成的金字塔立体声匹配网络:空间金字塔池和3D CNN ...
本文的目的是研究视觉 Transformer 中局部机制的影响。 Transformer 起源于机器翻译,特别擅长建模长序列内的长距离依赖性。尽管 Token 嵌入之间的全球相互作用可以通过变形金刚的自我发挥机制进行很好的建模,但缺少的是在局部区域内提供信息交换的局部性机制 ...
我们介绍了Dreamgen,这是一条简单而高效的四阶段管道,用于培训机器人策略,通过神经轨迹跨越行为和环境 - 由视频世界模型生成的合成机器人数据。 Dreamgen利用最先进的图像到视频生成模型,将其调整到目标机器人体现中,以在不同环境中生成熟悉或新颖任务的感性合成视频。由于这些模型仅生成视频,因此我们使用潜在的动作模型或逆动力学模型(IDM)恢复伪动作序列 ...
使用静态代码分析识别多语言软件系统的依赖性调用图很具有挑战性。开发当今系统中使用的不同语言通常具有不同的词汇,句法和语义规则,这些规则使彻底的分析变得困难。此外,它们在组件之间和组件之间提供了不同的模块化和依赖机制 ...
培训大语言模型(LLM)作为交互式代理提出了独特的挑战,包括长马决策以及与随机环境反馈进行互动。尽管增强学习(RL)在静态任务方面取得了进展,但多转弯代理RL培训仍然没有得到充实。我们提出了Starpo(状态思维 - 奖励政策优化),一个轨迹级代理RL的一般框架,并引入了Ragen,Ragen是一种用于培训和评估LLM代理的模块化系统 ...
大型语言模型(LLMS)由于高计算成本而面临部署挑战,而训练后量化(PTQ)提供了一种解决方案,现有的基于旋转的方法在非常低的位宽度(如2位)上挣扎。我们介绍了一种新颖的无训练方法,以构建改进的旋转矩阵,以解决当前方法的局限性。关键贡献包括利用序列排序利用Walsh-Hadamard变换,与标准的Hadamard矩阵相比,该序列相似的频率组件以减少量化误差,从而显着提高了性能 ...
随着自主驾驶技术的持续成熟和应用,对开源自动驾驶数据集进行系统的检查在促进行业生态系统的强大发展方面发挥了重要作用。当前的自动驾驶数据集可以广泛地分为两代。第一代自主驾驶数据集的特征是相对简单的传感器模式,较小的数据量表,并且仅限于感知级的任务 ...