基于文本的大语言模型(LLM)的普遍成功,简化了多模式社区的注意力,以结合视觉和音频等其他模式,以实现类似的多峰功能。在此任务中,必须评估大型音频语言模型(LALMS),以与传统分类或发电任务不同的相关任务进行评估。为了实现这一目标,我们提出了一个新颖的数据集,称为音频的时间推理评估(TREA) ...
为了协助游戏开发人员制作游戏NPC,我们提出了EvolvingBehavior,这是一种新颖的工具,用于基因编程,以在不真实的引擎4中发展行为树。在初步评估中,我们将演变的行为与由我们的研究人员设计的手工制作的树木和在3D生存游戏中随机生长的树木进行了比较。我们发现,在这种情况下,EvolvingBehavior能够产生行为,以实现设计师的目标 ...
The diversity of agent behaviors is an important topic for the quality of video games and virtual environments in general.为具有不同技能的用户提供最引人注目的体验是一项艰巨的任务,通常需要重要的人工努力来调整现有代码。 This can get even harder when ...
我们建议使用香草助剂模型为主题驱动的图像生成一个简单而有效的零射击框架。通过将任务作为基于网格的图像完成并简单地在马赛克布局中复制主题图像,我们就可以激活强大的具有身份性能的功能,而无需任何其他数据,训练或推理时间微调。这种“免费的午餐”方法通过新颖的级联注意力设计和元提示技术进一步增强,从而提高了忠诚度和多功能性 ...
大型语言模型(LLMS)和多模式LLMS(MLLM)的快速发展历史上依赖于以模型为中心的缩放,通过将参数数量从数百万增加到数十亿美元增加到数十亿美元来推动绩效提高。但是,随着我们对模型大小的硬件限制,主要的计算瓶颈从根本上转移到了长期 Token 序列上自我注意的二次成本,现在由超长的文本上下文,高分辨率图像和扩展视频驱动。在该立场论文中,\ textbf {我们认为,有效AI的研究重点正在从以模 ...
我们考虑从对轨迹段的人类偏好中学习奖励功能的算法,这用于从人类反馈(RLHF)学习的强化学习中。最近的工作假设人类的偏好仅基于这些细分市场中的奖励或部分回报产生。最近的工作对此假设的有效性产生了怀疑,提出了一个基于遗憾的替代偏好模型 ...
大型语言模型(LLM)推动了人工智能的前沿,但由数百十亿个参数和操作组成。为了更快的推理延迟,LLM通过各种模型并行策略部署在多个硬件加速器上。我们的论文研究了一个这样一种策略的细节 - 张量 - 并行 - 建议通过压缩加速器间通信来减少延迟 ...
跨越显着不同的视觉域(例如真实的照片,剪贴画,绘画和草图)的能力是人类视觉系统的基本能力。在本文中,与使用某些(或完整的)源域监督的大多数跨域作品不同,我们处理了一个相对较新且非常实用的无监督域概括(UDG)设置,即在源和目标域中既没有培训监督,否则我们的方法是基于对跨域(BRAD)的桥梁的自我监督的学习 - 辅助桥域伴随着一组语义,这些语义可以保留视觉(图像到图像)映射,从每个训练域中为br ...