当部署到现实世界应用程序时,现代深层神经网络努力转移知识并跨越不同领域的知识。当前,引入了域的概括(DG),以从多个域中学习通用表示,以提高看不见的域的网络泛化能力。但是,以前的DG方法仅关注数据级的一致性方案,而无需考虑不同一致性方案之间的协同正则化 ...
自然语言对可视化(NL2VIS)试图将自然语言描述转换为给定表的视觉表示,从而使用户能够从大规模数据中获得见解。大型语言模型(LLMS)的最新进展显示出在自动化代码生成中将表格数据转换为可访问可视化的有希望。但是,他们经常在需要跨多个表中推理的复杂查询中挣扎 ...
大型语言模型(LLM)的最新进展增强了自然语言推理。但是,它们有限的参数记忆和对幻觉的敏感性对需要准确的,基于上下文的推论的任务持续挑战。为了克服这些局限性,越来越多的研究提出了利用外部知识来增强LLM的研究 ...
当前的多模式大型语言模型(MLLM)在视觉效果中对视觉效果进行了精细或精确的理解,尽管它们在视觉应用中具有全面的感知和推理。最近的研究要么将工具使用或将特定的视觉任务统一到自回归框架中,通常是以总体多模式性能为代价。为了解决此问题并以可扩展的方式通过视觉任务增强MLLM,我们提出了任务偏好优化(TPO),这是一种新的方法,它利用了从典型的细粒视觉任务中得出的可区分任务偏好 ...
在对培训数据的不同分布下测试数据进行评估时,现代深层神经网络会遭受性能降解。域的概括旨在通过从多个源域学习可转移的知识来概括到看不见的目标域来解决这个问题。本文介绍了一种基于傅立叶的新型域概括 ...
视觉文本渲染对当代文本到图像生成模型提出了根本性挑战,其核心问题在于文本编码器的缺陷。为了实现准确的文本渲染,我们确定了文本编码器的两个关键要求:字符识别和字形对齐。我们的解决方案涉及通过使用精心策划的配对字形文本数据集微调字符感知 ByT5 编码器来制作一系列定制文本编码器 Glyph-ByT5 ...
癌症是全球死亡的主要原因,是由于基因组变化而发生的,并且在患者之间表现出异质。为了推进对个性化治疗策略的研究,在实验室环境中,通过实验确定了各种药物对癌细胞(“细胞系”)细胞的有效性。然而,由于生物学和环境差异,基因组数据和人类之间的药物反应分布的分布变化 ...
近年来,扩散模型已被证明是一种强大的生成模型,但在生成视觉文本方面仍然是一个挑战。有几种方法通过合并明确的文本位置和内容作为呈现文本的位置和内容的指导来缓解这个问题。然而,这些方法仍然存在一些缺点,例如灵活性和自动化程度有限、布局预测能力有限以及风格多样性有限 ... ...