我们提出了一种新型的方法,用于选择性模型量化,该方法超越了使用熵加权量化(EWQ)的大语言模型(LLM)(EWQ)的大型语言模型(LLMS)的体系结构的局限性。通过分析跨 Transformer 块的熵分布,EWQ确定可以安全量化哪些块而不会导致显着的性能降解,而与模型架构或大小无关。我们的方法的表现优于统一的量化方法,维持0范围内的大量多任务语言理解(MMLU)精度得分 ...
优化大型语言模型(LLMS)的长篇小说推理的主要挑战之一在于键值(KV)缓存的高内存消耗。现有的方法(例如量化)已经证明了减少记忆使用情况的有希望的结果。但是,当前的量化方法不能同时考虑有效性和效率 ...
我们介绍了Skywork R1V,这是一种多模式推理模型,通过有效的多模式传输方法将R1系列大型语言模型(LLM)扩展到视觉方式。 Skywork R1V利用轻巧的视觉投影仪,促进了无缝的多模式适应,而无需重新训练基础语言模型或视觉编码器。为了加强视觉文本对齐,我们提出了一种混合优化策略,将迭代监督的微调(SFT)与小组相对策略优化(GRPO)相结合,从而显着提高了交叉模式的整合效率 ...
基于大型语言模型的多代理系统正在彻底改变自主沟通和协作,但它们仍然容易受到安全威胁,例如未经授权的访问和数据泄露。为了解决这个问题,我们介绍了Admentafe,这是一个新颖的框架,可通过层次信息管理和内存保护来增强MAS安全性。 AgesentsAfe按安全级别对信息进行了分类,从而限制了对授权代理的敏感数据访问 ...
大型语言模型(LLM)的多代理系统(MAS)在各种复杂的任务中表现出了非凡的功能,从协作解决问题到自动决策。但是,随着这些系统越来越多地整合到关键应用中,它们对对抗性攻击,错误信息传播和意外行为的脆弱性引发了重大关注。为了应对这一挑战,我们介绍了G-Safeguard,这是一种拓扑指导的安全镜头和强大的LLM-MAS的处理,该镜头可利用图形神经网络来检测多代理性话语图形的异常情况,并采用拓扑干预进 ...
科学进步的快速发展需要能够加速发现的创新工具。虽然最近的人工智能方法,特别是大型语言模型(LLM),在假设生成和实验设计等任务中显示出了希望,但它们在复制现实世界科学实践的协作性质方面存在不足,在现实世界科学实践中,不同的专家团队共同努力解决问题复杂的问题。为了解决这个限制,我们提出了一个基于LLM的多代理系统,即 ...
最近,基于模型的增强学习算法在视觉输入环境中表现出了显着的功效。这些方法首先通过自我监督的学习来构建真实环境的参数化模拟世界模型。通过利用世界模型的想象力,代理商的政策将得到增强,而无需从真实环境中取样的限制 ...
我们介绍了MLE基础,这是一种测量AI代理在机器学习工程中的表现的基准。为此,我们策划了来自Kaggle的75毫升工程相关的比赛,创建了一套具有挑战性的任务,以测试现实世界中的ML工程技能,例如培训模型,准备数据集和运行实验。我们使用Kaggle的公开排行榜为每场比赛建立人类基线 ...