尽管在范围内采用的大型语言模型(LLM)能力的代理人在训练和微调过程中面临后门攻击的重大安全风险。随后可以操纵这些受损的代理人在其输入或环境中向特定触发器呈现时执行恶意操作。为了解决这种紧迫的风险,我们提出了试剂,这是针对对基于LLM的代理商的一系列后门攻击的新型防御 ...
大语言模型(LLMS)的兴起具有明显高级的文本到SQL(NL2SQL)系统,但是评估生成的SQL的语义等效性仍然是一个挑战,尤其是考虑到模棱两可的用户查询和多个有效的SQL解释。本文使用LLMS探讨了语义和更实用的“弱”语义对等效性。我们分析了SQL等效性和不等性的共同模式,讨论了基于LLM的评估中的挑战 ...
我们介绍了基于代理的交互式离散事件仿真环境的遵守。遵守从头开始设计,以支持市场应用中的AI代理研究。虽然在贸易公司内肯定可以使用仿真,但没有广泛可用的高保真市场模拟环境 ...
数学推理和优化是人工智能和计算问题解决的基础。大型语言模型(LLM)的最新进展已显着改善了AI驱动的数学推理,定理证明和优化技术。这项调查探讨了AI中数学问题解决的演变,从早期的统计学习方法到现代深度学习和基于 Transformer 的方法 ...
最近,随着 Transformer 模型的整合,单眼深度估计(MDE)的性能显着提高。但是, Transformer 模型通常是计算上的,并且与卷积相比,它们在轻质模型中的有效性受到限制。这种限制阻碍了他们在资源有限的设备上的部署 ...
在注意模块中的灵活可扩展性中,变形金刚在单模式和多模式基础模型中都受到青睐。因此,许多预训练的 Transformer 模型,例如 ...
由GPT-4等体系结构体现的大型语言模型(LLM)的快速发展已重塑了自然语言处理的景观。本文介绍了一种开创性的方法,以解决与LLM预培训相关的效率问题,并提出将知识蒸馏用于跨体系结构转移。利用高效的鬣狗机制的见解,我们的方法取代了鬣狗在 Transformer 模型中的注意力头,为传统的预训练提供了一种具有成本效益的替代方案,同时面对处理长上下文信息的挑战,这是二次注意机制固有的 ...
大多数知识蒸馏(KD)方法论主要集中在具有相似体系结构的教师成对上,例如均为卷积神经网络(CNN)。但是,通过将其扩展到新颖的跨体系结构KD(CAKD),可以大大提高KD的潜力和灵活性,在这里,可以灵活地将对同质和异质教师的知识转移给给定的学生。 CAKD中的主要挑战在于异质模型之间的实质特征差距,源自其固有的电感偏见和模块函数的区别 ...