多模态视觉语言模型 (VLM) 通过对图像和语言的融合理解实现强大的应用程序,但由于缺乏 UI 训练数据,许多模型在 UI 任务上表现不佳。在本文中,我们通过将现有的基于像素的方法与大型语言模型 (LLM) 相结合,将一种为 VLM 生成配对文本图像训练数据的方法应用于 UI 领域。与现有技术不同,我们的方法不需要人工提供的注释,并且它可以应用于任何 UI 屏幕截图数据集 ...
移动 UI 理解对于实现各种交互任务(例如 UI 自动化和可访问性)非常重要。以前的移动UI建模往往依赖于屏幕的视图层次结构信息,它直接提供UI的结构数据,希望绕过屏幕像素视觉建模的挑战性任务。然而,视图层次结构并不总是可用,并且经常因丢失对象描述或未对齐的结构信息而损坏 ...
尽管大型语言模型 (LLM) 取得了成功,但它们也表现出明显的缺点,特别是在处理长上下文时。它们的推理成本与序列长度呈二次方关系,这使得在某些现实世界的文本处理应用程序(例如检索增强生成(RAG))中部署成本高昂。此外, LLM 还表现出“分心现象”,即提示中不相关的上下文会降低输出质量 ...
大型语言模型 (LLM) 在许多自然语言理解和生成任务中表现出了卓越的能力。然而,个性化问题仍然是一个令人垂涎的属性,特别是当涉及对话系统中涉及的多个来源时。为了更好地规划和整合多个来源的使用来生成个性化响应,我们首先将其分解为三个子任务:知识源选择、知识检索和响应生成 ...
事实证明,相关知识的动态搜索是用于开放域问答和事实验证等任务的可靠系统的基本要素。然而,由于搜索系统并不完美,因此需要生成模型来生成部分或完全不相关段落的输出。这可能会导致对上下文的过度或不足依赖,并导致生成的输出出现问题,例如幻觉... ...