虚拟电影制作需要复杂的决策过程,包括剧本,虚拟摄影以及精确的演员定位和行动。本文介绍了基于语言代理的社会的自动决策的最新进展,本文介绍了一种基于LLM的新型多代理合作框架,用于我们构建的3D虚拟空间中的端到端电影自动化。 Filmagent模拟了各种工作人员角色,包括导演,编剧,演员和摄影师,并涵盖了电影制作工作流程的关键阶段:(1)创意发展将头脑风暴的想法转变为结构化的故事大纲; (2)剧本详细 ...
几何深度学习的最新作品引入了神经网络,通过定义三角形网格的卷积(有时甚至汇总)操作,允许在三维几何数据上执行推理任务。但是,这些方法要么将输入网格视为图形,因此不利用网格的特定几何特性来进行特征聚集和下采样,或者专门用于网格,而是依靠对卷积的刚性定义,该卷积无法正确捕获网格的局部拓扑。我们提出了一种结合两种方法的优势的方法,同时解决了它们的局限性:我们将一个原始的偶型框架从图形神经网络文献绘制为三 ...
通道排名涉及两个阶段:通道检索和通过重新排行,这对于信息检索领域的学者和行业来说都是重要且具有挑战性的主题(IR)。但是,通用通道排名的常用数据集通常集中在英语上。对于非英语场景,例如中文,现有数据集在数据量表,细粒度相关性注释和虚假负面问题方面受到限制 ...
多语预测(MTP)是最近提出的语言模型预训练目标。 MTP不仅要仅预测下一 Token (NTP),还使用多个预测负责人在每个预测步骤中预测下一个$ k $ Token 。 MTP在改善下游性能,推理速度和训练效率方面表现出了希望,尤其是对于大型模型 ...
大型语言模型(LLM)和音频语言模型的最新进展已大大改善了音乐的发电,尤其是歌词到歌曲的一代。但是,现有的方法仍然在歌曲的复杂组成和高质量数据的稀缺性方面困难,从而导致声音质量,音乐性,跟随教学和声音启动和谐的限制。为了应对这些挑战,我们介绍了LEVO,这是一个基于LM的框架,由LELM和音乐编解码器组成 ...
大量数量和高质量是制作具有样本隐私保护的良好培训数据集的黄金规则。生成类似于高质量私人数据的合成样本,同时确保差异隐私(DP),正式的隐私保证有望可扩展性和实用性。但是,现有的方法依靠预先训练的模型用于数据合成%,这些模型避免了微调大型预训练的生成模型通常在数据缺陷的情况下挣扎,患有有限的样本量,不可避免的生成噪声和现有的预训练模型偏见 ...
有效的多模式推理取决于视觉和语言表示的对准,但是视觉模型(VLM)实现这种比对的机制仍然很少理解。我们介绍了一个方法论框架,该框架故意维护冷冻大型语言模型(LLM)和一个冷冻视觉 Transformer (VIT),该框架仅通过在视觉教学调谐过程中训练线性适配器连接。这种设计对我们的方法至关重要:通过保持语言模型冻结,我们确保它在不适应视觉数据的情况下维护其原始语言表示 ...
通常认为,缩放语言模型应通过增加参数(参数缩放)或输出 Token (推进时间缩放)来实现大量的空间或时间成本。我们介绍了第三个也是更高的推理缩放范式:在训练和推理时间内增加模型的并行计算。我们将$ p $多样性和可学习的转换应用于输入,并行执行模型的前向通过,然后动态汇总$ p $输出 ...