现代对象探测器在很大程度上依赖于矩形边界框,例如锚,建议和最终预测,以在各种识别阶段表示对象。边界框很方便,但仅提供对象的粗糙定位,并导致对象特征的粗略提取。在本文中,我们介绍\ textbf {reppoints}(代表点),这是对象的新表示,作为一组示例点,可用于本地化和识别 ...
微调已成为利用大型语言模型(LLM)进行特定下游任务的关键过程,使这些模型能够在各个领域实现最新的性能。但是,微调过程通常涉及敏感数据集,引入了利用此阶段独特特征的隐私风险。在本文中,我们对与微调LLM相关的隐私挑战进行了全面的调查,强调了各种隐私攻击的脆弱性,包括会员推理,数据提取和后门攻击 ...
视觉问题回答(VQA)的理想形式使我们能够在视觉和语言的联合空间中研究推理,并可以作为场景理解的AI任务的代理。但是,迄今为止,大多数VQA基准都集中在简单计数,视觉属性和对象检测等问题上,这些问题不需要图像中的内容以外的推理或知识。在本文中,我们解决了基于知识的视觉问题回答的任务,并提供了一个名为OK-VQA的基准,其中图像内容不足以回答问题,鼓励依赖外部知识资源的方法 ...
具有多模式感知和基于大型视觉模型(LVLM)的多模式感知和推理能力的体现代理的最新进展,在自主互动的真实或网络世界中表现出色,帮助人们在复杂的环境中做出明智的决策。但是,当前的作品通常通过黄金行动轨迹或针对确定目标的理想的以任务为导向的解决方案来优化。该范式认为有限的面向用户的因素,这可能是他们在广泛的个人助理应用程序中绩效降低的原因 ...
我们提出\ llinstruct:一个8B指令调整的模型,旨在为英语语言能力评估(ELPA)和相关应用程序生成内容。我们的工作涉及在ELPA域中创建一个新的70K指令和解释的数据集,并使用它们来微调不同尺寸的Llama-3 8b模型(SFT)(例如, ...
量化已被广泛用于压缩和加速大型语言模型(LLMS)的推断。现有的方法着重于探索po绕动态校准,以确保在4位量化下的推理加速度和模型精度。但是,在长序列的自回旋生成推断中,重复的动态量化和去除步骤的开销变得非常昂贵 ...
检索增强生成 (RAG) 已证明其通过从外部资源检索知识来减轻大型语言模型 (LLM) 中的幻觉的有效性。为了使 LLM 适应 RAG 管道,当前的方法使用指令调整来优化 LLM,提高其利用检索到的知识的能力。这种监督微调 (SFT) 方法的重点是让 LLM 能够使用不同的指令处理不同的 RAG 任务 ...
很少有思想链(COT)显着增强了大语言模型(LLMS)的推理能力,从而使整个功能指导这些模型在为最终答案中生成推理步骤。但是,我们观察到,COT演示中的孤立段,单词或 Token 会意外破坏LLM的生成过程。该模型可能会过度集中于演示中存在的某些局部信息,从而将无关的噪声引入推理过程中,并可能导致错误的答案 ...