GPT4o 和 Gemini Flash 等多模态模型在推理和总结任务方面表现出色,其性能接近人类水平。然而,我们发现,当被要求执行非常具体的“阅读和估计”任务时,特别是在商业平台中的可视化图表的背景下,这些模型的表现低于人类。本文评估了 GPT 4o 和 Gemini Flash-1 的准确性 ...
对于当前的模型来说,回答需要阅读图像中的文本的问题具有挑战性。这项任务的一个关键困难是图像中经常出现罕见的、多义的和歧义的单词,例如 ...
结构身份是一种对称概念,根据网络结构及其与其他节点的关系来识别网络节点。过去几十年来,人们在理论和实践中对结构同一性进行了研究,但直到最近才用表征学习技术来解决它。这项工作提出了 struc2vec,一种新颖且灵活的框架,用于学习节点结构身份的潜在表示 ...
几何深度学习最近引起了包括文档分析在内的广泛机器学习领域的极大兴趣。图神经网络(GNN)的应用在各种与文档相关的任务中变得至关重要,因为它们可以揭示重要的结构模式,这是关键信息提取过程的基础。先前的文献工作提出了任务驱动模型,但没有考虑到图的全部功能 ...
视觉信息提取(VIE)在文档智能中发挥着重要作用。一般来说,它分为两个任务:语义实体识别(SER)和关系提取(RE)。最近,文档预训练模型在VIE,特别是SER方面取得了实质性进展 ...
最近,在许多人工智能领域取得巨大成功的Transformer模型展示了其在图结构数据建模方面的巨大潜力。到目前为止,已经提出了各种各样的 Transformer 来适应图结构数据。然而,对这些图的 Transformer 变体的全面文献综述和系统评估仍然无法实现 ...
极限多标签文本分类 (XMC) 旨在从给定文本输入的极大标签集合中查找相关标签。许多现实世界的应用程序都可以表述为 XMC 问题,例如推荐系统、文档标记和语义搜索。最近,基于 Transformer 的 XMC 方法(例如 X-Transformer 和 LightXML)已显示出比其他 XMC 方法显着的改进 ...
已经提出图嵌入来将图数据映射到低维空间以进行下游处理(例如,节点分类或链接预测) ...
我们引入了“思维助手”的概念,这种方法鼓励用户通过头脑风暴和发人深省的提问进行深度反思和批判性思维。我们将这样一个思维助手 Gradschool.chat 实例化,作为专门为未来的研究生提供帮助的虚拟助手 ...
每学期在在线问答平台上回答数千个学生问题会产生相当大的人力成本,特别是在入学人数快速增长的计算机课程中。为了应对可扩展和智能问答 (QA) 的挑战,我们引入了一种创新解决方案,该解决方案利用 LLaMA-2 系列的开源大型语言模型 (LLM) 来确保数据隐私。我们的方法结合了增强技术,例如检索增强生成(RAG)、监督微调(SFT)以及使用直接偏好优化(DPO)从人类偏好数据中学习 ...