基于密集的嵌入文本检索$ \ unicode {x2013} $通过深度学习编码从语料库中检索$ \ unicode {x2013} $已成为一种有力的方法,即获得最先进的搜索结果并普及使用增强生成(RAG)。尽管如此,与其他搜索方法一样,基于嵌入的检索可能会受到搜索引擎优化(SEO)攻击的影响,在这种攻击中,对手通过向Corpora引入对抗性段落来促进恶意内容。为了忠实地评估并洞悉此类系统对SE ...
我们介绍了行动链(COA),这是一种基于轨迹自回旋建模建立的新型视觉运动策略范式。与传统的方法预测下一步动作的传统方法不同,COA通过通过动作级别的思想链(COT)过程明确地向后推理来生成整个轨迹。该过程在单个自回归结构中统一:(1)第一个 Token 对应于编码特定于任务目标的稳定的密钥帧动作; (2)随后的操作 Token 是根据初始密钥框架和先前预测的操作生成自动进程的 ...
自动疾病诊断在临床实践中越来越有价值。大型语言模型(LLM)的出现催化了人工智能的范式转变,越来越多的证据支持LLMS在诊断任务中的疗效。尽管该领域的关注越来越多,但仍然缺乏整体观点 ...
对社会出现的研究长期以来一直是社会科学的核心重点。传统的建模方法,例如基于规则的代理模型(ABM),难以捕获人类行为的多样性和复杂性,尤其是行为经济学强调的非理性因素。最近,大型语言模型(LLM)代理人已获得吸引人的仿真工具,用于建模社会科学和角色扮演应用中的人类行为 ...
大型语言模型(LLM)在实现自然语言界面方面显示了通过文本到SQL生成来查询的自然语言界面。但是,由于语义幻觉,结构错误以及缺乏特定领域的评估框架,它们在现实世界中的商业智能(BI)环境中的应用仍限制。在这项研究中,我们提出了一个事实一致性评估框架,用于评估使用Exaone 3的LLM生成的SQL输出的语义准确性 ...
大型语言模型(LLMS)在多步交互中步履蹒跚 - 通常是由于依赖线性的,非结构化的上下文,通常会幻觉,重复操作或误解用户更正。这种脆弱性源于缺乏持久记忆来跟踪不断发展的目标和任务依赖性,从而破坏了对自主代理的信任。我们介绍了任务存储器引擎(TME),这是一种模块化存储器控制器,将现有的LLMS转换为强大的,修改感知的代理而无需进行微调 ...
对齐视频大型多模态模型 (VLMM) 面临模态未对齐和冗长响应等挑战。尽管自我奖励或迭代直接偏好优化(DPO)等迭代方法最近在语言模型对齐方面显示出显着的改进,特别是在推理任务上,但应用于大型视频语言模型的自对齐模型通常会导致冗长且不相关的响应。为了应对这些挑战,我们提出了一种新方法,利用自我回顾来增强响应生成和偏好建模,并称为迭代自我回顾判断(i-SRT) ...
In the domain of audio-visual event perception, which focuses on the temporal localization and classification of events across distinct modalities (audio and visual), existing approaches are constrain ...