WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types
多模式实体链接(MEL)旨在将提及与多模式上下文与知识库(例如Wikipedia)(例如Wikipedia)联系起来,是许多多模式应用程序的重要任务 ...
多模式大语言模型(MLLMS)弥合了视觉和文本数据之间的差距,从而实现了一系列高级应用程序。但是,视觉元素之间的复杂内部互动及其与文本的一致性可能引入漏洞,可以利用这些漏洞来绕过安全机制。为了解决这个问题,我们分析图像内容与任务之间的关系,发现子图像的复杂性而不是其内容是关键 ...
语义通信被认为是香农范式之外的突破,其目标是成功传输源所传达的语义信息,而不是准确接收每个单个符号或位(无论其含义如何)香农信息论之后,我们讨论了深度学习支持的理论、框架和系统设计的语义通信 ... ...
在开放式世界中完成长马(LH)任务对于具体代理人来说,这是一个重要但困难的问题。现有方法面临两个关键挑战:(1)他们在很大程度上依赖于从人类创建的数据或课程中获得的经验,缺乏连续更新多模式体验的能力,并且(2)他们可能会遇到灾难性遗忘的问题,面对新任务,遇到新任务,缺乏不断更新世界知识的能力。为了解决这些挑战,本文提出了一种具有持续世界模型(WM)的自主发展的代理人,可以通过自我计划,自我控制和自 ...
长期以来,增强YOLO框架的网络架构至关重要,但尽管在建模功能中具有关注机制具有优势,但仍集中在基于CNN的改进上。这是因为基于注意力的模型无法匹配基于CNN的模型的速度。本文提出了一个以注意力为中心的YOLO框架,即Yolov12,该框架与以前基于CNN的速度相匹配,同时利用了注意机制的性能优势 ...
大语言模型(LLMS)的文化学习能力使他们能够将其推广到具有相对较少标记的示例的新颖下游任务。但是,它们需要部署庞大的计算资源。或者,如果用足够的标记示例进行微调,则较小的模型可以解决特定的任务 ...
大多数现有的知识图应答(KGQA)方法是为特定kg设计的,例如wikidata,dbpedia或freebase。由于基础图模式的异质性,拓扑和断言,如果没有资源密集型培训数据,大多数KGQA系统就无法转移到看不见的知识图(KGS)。我们提出了一种新型的大型语言模型(LLM)基于KGQA的方法,其两阶段架构将语义解析与KG依赖性相互作用分开 ...
变形金刚能否在需要处理不同级别难度的示例的问题上有效地概括?我们引入了一项针对不同复杂性评估概括的新任务,并提出结果表明标准 Transformer 在解决这些任务方面面临挑战。这些任务是张(2021)先前引入的指针值检索的变体 ...