基于大语言模型(LLM)并与工具和内存相互作用的代理AI系统在功能和范围方面已快速提高。但是,由于已显示LLM在多语言环境中挣扎,通常会导致性能降低和安全性降低,因此代理系统风险继承这些限制。这引起了人们对此类系统的全球可访问性的担忧,因为用英语以外的其他语言进行交互的用户可能会遇到不可靠或关键安全的代理行为 ...

0 0 0 0 2025/07/07 arXiv:2505.15935v1 wdn

由于其二次时间的复杂性,有效的注意力实现对于大型模型至关重要。幸运的是,注意通常表现出稀疏性,即 ...

0 0 0 0 2025/07/07 arXiv:2502.18137v5 zhangxinyu

向量数据库是AI系统中的关键基础架构,平均召回率是其评估的主要指标。用户和研究人员都依靠它来选择和优化其系统。我们表明,平均召回是有问题的 ...

0 0 0 0 2025/07/07 arXiv:2507.00379v1 李大人

建立在大型基础模型上的多模式代理的快速进步在很大程度上忽略了它们在协作任务中基于语言的沟通的潜力。这种疏忽在理解其在现实世界部署中的有效性方面尤其是在与人类沟通时的关键差距。现有的代理基准无法解决代理间沟通和协作的关键方面,尤其是在代理商无法获得信息不平等的情况下,必须共同努力以实现超出个人功能范围的任务 ...

0 0 0 0 2025/07/07 arXiv:2410.07553v2 wdn

尽管在视觉推理方面表现出色,但大型视觉模型(LVLM)可能会产生给定图像中不存在的幻觉内容。大多数现有的LVLM幻觉基准都受到限制,以评估与对象相关的幻觉。但是,关于两个物体之间关系的潜在幻觉,即 ...

0 0 0 0 2025/07/07 arXiv:2410.23114v3 WillVV

深度研究代理是基于LLM的代理的重要类别。通过自主协调多步探索,有针对性的检索和高阶合成,它们将大量的在线信息转换为分析师级,引用丰富的报告 - 将手动台式研究用于几分钟。但是,系统地评估这些试剂能力的全面基准仍然没有 ...

0 0 0 0 2025/07/07 arXiv:2506.11763v1 Yuelong

通过在推理时检索到的外部证据来调节生成,检索授权的生成(RAG)已成为一种强大的范式来增强大语模型(LLM)。尽管RAG解决了参数知识存储的临界局限性,例如事实上的不一致和域的不灵活性,但它在检索质量,基础忠诚度,管道效率和鲁棒性方面引入了新的挑战,以应对嘈杂或对抗性输入。这项调查提供了对抹布系统最新进展的全面综合,提供了将体系结构分类为以猎犬为中心,以发电机为中心,混合和稳健性的设计的分类法 ...

0 0 0 0 2025/07/07 arXiv:2506.00054v1 ZhangChi

解释图神经网络(GNN)由于需要解释性而引起了极大的关注,使用户能够更好地了解这些黑盒模型的行为,并从其预测中提取出宝贵的见解。尽管已经提出了许多事后实例级解释方法来解释GNN预测,但这些解释的可靠性仍然不确定,尤其是在分布外或未知的测试数据集中。在本文中,我们通过引入以理论原理为基础的置信度评分模块(confexplainer)引入解释器框架,以置信图(GIB-CC)为基础,该挑战量化了生成解释的可靠性 ...

0 0 0 0 2025/07/07 arXiv:2506.00437v1 QingXiang

通过直接访问人工写的参考作为记忆,在广泛的文本生成任务中取得了很大的进步。由于更好的内存通常会提示更好的生成〜(我们将其定义为原始问题)。传统的内存检索方法涉及选择与输入最高相似性的内存 ...

0 0 0 0 2025/07/07 arXiv:2305.02437v3 ZhangChi

AI生成的内容(AIGC)技术的快速发展导致滥用高度现实的AI生成的图像(AIGI)在传播错误信息方面,对公共信息安全构成了威胁。尽管现有的AIGI检测技术通常是有效的,但它们面临两个问题:1)缺乏人为验证的解释,以及2)最新一代技术缺乏概括。为了解决这些问题,我们介绍了一个大规模且全面的数据集Holmes-Set,其中包括Holmes-Sftset,一个指令调整数据集,其中包含有关图像是否是AI生成的解释,以及Holmes-Dposet,一个人与与人对齐的偏好数据集 ...

0 0 0 0 2025/07/07 arXiv:2507.02664v1 Archer

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)