在图像编辑中引入用户指定的视觉概念是高度实用的,因为这些概念比基于文本的描述更精确地传达了用户的意图。我们提出了FreeEdit,这是一种实现此类基于参考的图像编辑的新颖方法,它可以根据用户友好的语言指令准确地从参考图像中重现视觉概念。我们的方法利用多模式指令编码器编码语言说明来指导编辑过程 ...
以前关于不完整的话语重写(IUR)的工作主要集中在仅基于对话上下文的情况下生成重写的话语,而忽略了对话中的Coreference和Ellipsis的广泛现象。为了解决这个问题,我们为IUR提出了一个称为TEO的新颖框架(\ emph {两阶段的方法}),其中第一阶段使用生成的编辑操作和对话上下文来生成编辑操作,第二阶段重写不完整的话语。此外,提出了一种对抗性扰动策略,以减轻级联错误和由第二阶段训练 ...
神经辐射场和3D高斯裂缝已彻底改变了3D重建和新型视图综合任务。然而,从极端新颖的观点中实现逼真的渲染仍然充满挑战,因为伪影持续存在。在这项工作中,我们引入了Difix3D+,这是一种新型管道,旨在通过单步扩散模型来增强3D重建和新型视图合成 ...
我们为快速馈送3D场景生成提供了潜在扩散模型。给定一个或多个图像,我们的模型Bolt3D在单个GPU上不到七秒钟内直接采样3D场景表示。我们通过利用强大而可扩展的现有2D扩散网络体系结构来产生一致的高保真3D场景表示形式来实现这一目标 ...
大型语言模型(LLM)在各种自然语言处理任务中表现出了显着的功能。但是,在数学推理和非英语语言等专业领域中实现强大的性能通常需要在大规模数据集上进行广泛的培训。本文研究了一种对比方法:对小型,高质量的双语(英语)数据集进行战略性微调,以增强大语言模型的推理能力和法语能力 ...
Babylm挑战要求参与者开发样本效率的语言模型。在固定的英语语料库中鉴定了提交的意见,仅限于儿童在发育中暴露的单词数量(<100m)。挑战为数据有效的语言建模提供了新的体系结构,该建筑的表现优于对数万亿个单词的训练的模型 ...
有效的分布式数值表示模型(单词嵌入)与现代机器学习算法相结合,最近对自动文档分类任务产生了可观的改进。但是,尚未评估此类技术的有效性,以评估分层文本分类(HTC)。这项研究通过实验和分析研究了这些模型和算法在此特定问题上的应用 ...
平面布置是表面和音量建模的有用工具。但是,它们的主要缺点是可扩展性差。我们介绍了两个关键的新颖性,可以为复杂物体和整个场景的平面布置构建:(i)平面插入的订购方案,以及(ii)在布置构建过程中直接使用输入点 ...