yangming的文档

yangming

个性签名 ...

ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations

多模态视觉语言模型 (VLM) 通过对图像和语言的融合理解实现强大的应用程序，但由于缺乏 UI 训练数据，许多模型在 UI 任务上表现不佳。在本文中，我们通过将现有的基于像素的方法与大型语言模型 (LLM) 相结合，将一种为 VLM 生成配对文本图像训练数据的方法应用于 UI 领域。与现有技术不同，我们的方法不需要人工提供的注释，并且它可以应用于任何 UI 屏幕截图数据集 ...

0 0 0 0 2024/05/31 arXiv:2310.04869v1 yangming

Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus

移动 UI 理解对于实现各种交互任务（例如 UI 自动化和可访问性）非常重要。以前的移动UI建模往往依赖于屏幕的视图层次结构信息，它直接提供UI的结构数据，希望绕过屏幕像素视觉建模的挑战性任务。然而，视图层次结构并不总是可用，并且经常因丢失对象描述或未对齐的结构信息而损坏 ...

0 0 0 0 2024/05/30 arXiv:2209.14927v4 yangming

Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

尽管大型语言模型 (LLM) 取得了成功，但它们也表现出明显的缺点，特别是在处理长上下文时。它们的推理成本与序列长度呈二次方关系，这使得在某些现实世界的文本处理应用程序（例如检索增强生成（RAG））中部署成本高昂。此外， LLM 还表现出“分心现象”，即提示中不相关的上下文会降低输出质量 ...

0 1 0 0 2024/04/12 arXiv:2404.06910v1 yangming

UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for Personalized Dialogue Systems

大型语言模型 (LLM) 在许多自然语言理解和生成任务中表现出了卓越的能力。然而，个性化问题仍然是一个令人垂涎的属性，特别是当涉及对话系统中涉及的多个来源时。为了更好地规划和整合多个来源的使用来生成个性化响应，我们首先将其分解为三个子任务：知识源选择、知识检索和响应生成 ...

0 0 0 0 2024/04/11 arXiv:2401.13256v1 yangming

Learning to Filter Context for Retrieval-Augmented Generation

事实证明，相关知识的动态搜索是用于开放域问答和事实验证等任务的可靠系统的基本要素。然而，由于搜索系统并不完美，因此需要生成模型来生成部分或完全不相关段落的输出。这可能会导致对上下文的过度或不足依赖，并导致生成的输出出现问题，例如幻觉... ...

0 0 0 0 2024/12/15 arXiv:2311.08377v1 yangming

ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations

Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus

Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for Personalized Dialogue Systems

Learning to Filter Context for Retrieval-Augmented Generation

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）