食物是人类生活的基础,不仅可以作为营养来源,而且是文化认同和社会互动的基石。随着全球饮食需求和偏好的复杂性的增长,需要食品智能来实现各种任务的食物感知和推理,从食谱产生和饮食建议到饮食疾病疾病的相关性发现和理解。为了实现这一目标,对于大型语言模型(LLM)中各个领域和任务的强大功能,我们引入了面向食品的LLM Foodsky,通过感知和推理来理解食品数据 ...
视觉语言模型在许多以感知为中心的任务上取得了重大进展。但是,由于缺乏高质量和多样化的培训数据,他们在以推理为中心的任务上的进展仍然受到限制。在这项工作中,我们旨在解决以推理为中心的多模式数据集的稀缺性 ...
尽管最近的扩散 Transformer (DITS)用于文本到视频的生成,但由于自我注意力的二次复杂性,扩展到长期含量的扩展仍然具有挑战性。虽然先前的努力(例如稀疏的注意力和时间自回归模型)提供了部分缓解,但它们通常会损害时间连贯性或可扩展性。我们介绍了Lovic,这是一个基于DIT的框架,该框架对数百万级的开放域视频进行了培训,旨在通过细分生成过程制作长而连贯的视频 ...
生成的建议已成为一种有希望的范式,该范式将这些建议提出为文本到文本生成任务,从而利用了大型语言模型的广泛知识。但是,现有的研究重点是考虑项目的顺序顺序和忽视以处理跨项目的时间动态,这可能意味着不断发展的用户偏好。为了解决这一限制,我们提出了一种新颖的模型,使用时间意识(GRUT)有效地通过各种时间信号来捕获隐藏的用户偏好 ...
这项研究说明了将面向反馈的注释纳入评分管道如何提高自动论文评分(AES)的准确性(AES)的准确性。这种方法是通过具有说服力的论文来证明的,用于评估,选择和理解论证和话语要素(CELSUADE)语料库。我们整合了两种反馈驱动的注释:识别拼写和语法错误的注释,以及突出论证组成部分的注释 ...
水下成像应对轻水相互作用的挑战,从而导致颜色扭曲和降低清晰度。为了应对这些挑战,我们提出了一种新颖的色彩平衡。该框架在多个尺度上运行,采用所提出的\ textbf {详细信息修复器}模块在更细的尺度上恢复低级详细特征,并利用所提出的\ textbf {特征contectualizer}模块来捕获更广泛尺度上高级一般特征的长距离上下文关系的长距离上下文关系 ...
尽管现有的基于夹子的方法用于检测AI生成的图像的结果已取得了令人鼓舞的结果,但它们仍然受到严重特征冗余的限制,这阻碍了其概括能力。为了解决此问题,将信息瓶颈网络纳入任务提供了简单的解决方案。但是,仅依靠图像对应提示会导致提示的固有多样性,从而导致次优性能 ...
在本文中,我们通过自动编码器镜头理解为编码器(I2T)引入了一个有见地的范式,该范式将图像压缩到文本中,并以解码器(T2I)的形式产生,从而从该文本中重建图像。我们将重建忠诚度作为统一的训练目标,我们在理解过程和发电过程之间实施了相干的双向信息流,从而带来了相互利益。为了实施这一点,我们提出了阿联酋,这是统一多模式学习的新型框架 ...