JayGee666的文档

JayGee666

个性签名 ...

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

我们提出了 SegFormer，一个简单、但功能强大的图像分割框架，它将 Transformer 与轻量级梯度增强器 (MLP) 解码器结合起来。 SegFormer 有两个吸引人的功能：1）SegFormer 包含一个新颖的的分层结构Transformer编码器，可输出多尺寸。它不需要位置编码，从而避免了位置代码的插值，当测试分辨率与训练分辨率不同时，位置代码的插值会导致性能下降... ...

0 0 0 0 2024/10/27 arXiv:2105.15203v3 JayGee666

PP-StructureV2: A Stronger Document Analysis System

大量文档数据以非结构化形式存在，例如没有任何文本信息的原始图像。设计实用的文档图像分析系统是一项有意义但具有挑战性的任务。在之前的工作中，我们提出了一种智能文档分析系统PP-Structure ...

0 0 0 0 2024/04/19 arXiv:2210.05391v2 JayGee666

Base-based Model Checking for Multi-Agent Only Believing (long version)

我们为多智能体仅相信利用信念基础的语言提出了一种新颖的语义，并展示了如何使用它来自动检查该语言的公式及其与私人信念扩展算子的动态扩展。我们提供了一种用于模型检查的 PSPACE 算法，该算法依赖于 QBF 的简化，以及依赖于状态空间探索的替代专用算法。我们在具体示例中提出了基于 QBF 的算法的实现以及计算时间的一些实验结果 ...

0 0 0 0 2024/04/01 arXiv:2307.14893v1 JayGee666

OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition

（llm）（llm）的出现，视觉情境文本解析（ vSTP）取得了显着的进步。人们提出了各种方法来解决vstp的挑战性问题。然而，由于目标多样化和架构异构，以往的工作通常为各个任务设计特定于任务的架构和目标，这无意中导致了模式隔离和复杂的工作流程... ...

0 0 0 0 2025/03/03 arXiv:2403.19128v1 JayGee666

PubLayNet: largest dataset ever for document layout analysis

将文档解析为下游应用程序的结构化机器可读格式时，识别非结构化数字文档的布局是重要的一步。为计算机视觉开发的深度神经网络已被证明是分析文档图像布局的有效方法。然而，目前公开的文档布局数据集比已建立的计算视觉数据集小几个数量级 ...

0 0 0 0 2024/03/27 arXiv:1908.07836v1 JayGee666

LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像文档。视觉丰富的文档理解任务，例如文档图像分类和信息提取，由于其重要性而受到广泛关注。现有的方法已经被开发出来，通过结合图像、文本和布局结构的预训练意识来增强文档理解 ...

0 0 0 0 2024/03/26 arXiv:2403.14252v1 JayGee666

CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

具有令人印象深刻的学习能力的大型语言模型（LLM）开发背后的驱动因素是其庞大的模型规模和广泛的训练数据集。随着自然语言处理领域的进步， LLM 经常向公众开放，以促进更深入的研究和应用。然而，当谈到这些 LLM 的训练数据集时，尤其是最近最先进的模型，它们往往没有完全公开 ...

0 0 0 0 2024/08/15 arXiv:2309.09400v1 JayGee666

WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia

本文提出了第一个基于 LLM 的小样本聊天机器人，它几乎从不产生幻觉，并且具有高会话性和低延迟。 WikiChat 以英语维基百科为基础，这是最大的精选自由文本语料库。 WikiChat 生成法学硕士的回复，仅保留有根据的事实，并将其与从语料库中检索到的其他信息相结合，形成事实且引人入胜的回复 ...

0 0 0 0 2024/03/13 arXiv:2305.14292v2 JayGee666

A Survey on Recent Advances in LLM-Based Multi-turn Dialogue Systems

本次调查对多轮对话系统的研究进行了全面的回顾，特别关注基于大语言模型（LLM）的多轮对话系统。本文旨在（a）总结现有的 LLM 以及使 LLM 适应下游任务的方法；(b)阐述多轮对话系统的最新进展，主要基于 LLM 的开放域对话（ODD）和面向任务的对话（TOD）系统，以及数据集和评估指标；(c)讨论基于 LLM 的开放域对话（ODD）和面向任务的对话（TOD）系统，以及数据集和评估指标；的发展以及对多轮对话系统日益增长的需求而产生一些未来重点和近期研究问题... ...

0 1 2 40 2024/10/22 arXiv:2402.18013v1 JayGee666