对于构建值得信赖的AI系统,教学视觉问题答案(VQA)模型避免回答无法回答的问题是必要的。现有研究虽然探索了VQA的各个方面,但在某种程度上忽略了此特定属性。本文旨在通过贡献一个名为UNK-VQA的综合数据集来弥合研究差距 ...
AI图像中的创造力仍然是一个根本的挑战,不仅需要产生视觉上引人入胜的内容,而且还需要在图像中增加新颖,表现力和艺术丰富的转换的能力。与依赖基于直接及时的直接修改的常规编辑任务不同,创意图像编辑需要一种自主,迭代的方法,以平衡独创性,连贯性和艺术意图。为了解决这个问题,我们介绍了CREA,这是一个模仿人类创作过程的新型多代理协作框架 ...
在本报告中,我们介绍了我们的第一个开源多语言翻译模型Hunyuan-MT-7B,该模型支持跨33种主要语言的双向翻译,并特别强调了普通话与几种少数族裔语言以及方言之间的翻译。此外,为了在测试时间服务和解决各种翻译方案并提高模型性能,我们介绍了Hunyuan-Mt-Chimera-7b,这是一种受缓慢思考模式启发的翻译模型。该模型集成了由Hunyuan-MT-7B模型在不同的参数设置下产生的多个输出 ...
多模式的大型语言模型(MLLM)由于研究人员在视觉语言任务中的出色理解和产生能力(例如,视觉问题的回答)而引起了研究人员的广泛关注 ...
DeNoising扩散模型在2D图像生成中表现出了出色的结果,但是在3D形状生成中复制其成功仍然是一个挑战。在本文中,我们提出了利用多视图深度,该深度代表了易于DeNoise的2D数据格式的复杂的3D形状。我们将此表示形式与扩散模型MVDD配对,该模型能够生成具有20K+点的高质量致密点云,并具有细颗粒的细节 ...
隐式神经表示(INR)已成功用于任意规模的超分辨率(ASR)。但是,基于INR的模型需要多次查询多层感知器模块,并在每个查询中呈现一个像素,从而导致表示能力和计算效率不足。最近,高斯脱衣舞(GS)在3D任务中显示出其优质质量和渲染速度的优势,这激发了我们探索是否可以用于ASR任务的GS ...
当前的多模式错误信息检测(MMD)方法通常假设每个样品的单一来源和伪造类型,这对于多个伪造来源共存的真实情况不足。缺乏用于混合源错误信息的基准阻碍了该领域的进步。为了解决这个问题,我们介绍了MMFakebench,这是混合源MMD的第一个综合基准 ...
由于其稀疏性和不规则性,点云处理是一项具有挑战性的任务。先前的作品在本地功能聚合器或全球几何体系结构上介绍了精致的设计,但很少有两个优点。我们提出具有高频融合(DSPOINT)的双尺度点云识别,以通过在体素和点上同时操作来提取局部全球特征 ...