推理对于有目的的行动至关重要,但是大多数机器人基础模型将感知和指示直接绘制为控制,从而限制了适应性,泛化和语义基础。我们介绍了动作推理模型(ARM),这是一种通过结构化的三阶段管道整合感知,计划和控制的机器人基础模型。我们的模型Molmoact将观测和指令编码为深度感知 Token ,将中层空间计划作为可编辑的轨迹痕迹生成中层空间计划,并预测精确的低级动作,实现可解释和可解释的行为 ...
记忆马赛克是共同记忆的网络,共同实现了一项关注的预测任务。像 Transformer 一样,记忆镶嵌具有组成能力和内在的学习能力。与 Transformer 不同,记忆镶嵌物以相对透明的方式实现了这些功能 ...
近年来,大语言模型(LLM)中对知识产权(IP)的担忧已经大大增长。窃其他LLM(通过直接重量复制,升级,修剪或持续预处理)并声称作者身份而不适当归因于原始许可,这是一种严重的不当行为,可以对原始开发人员造成重大财务和声誉损害。但是,现有的检测LLM窃的方法在关键领域缺乏 ...
线性代数原始基原始人是工程,科学和机器学习中许多现代算法的核心。因此,通过新颖的计算硬件加速这些原语将产生巨大的经济影响。尽管资源要求远远超出了当前的技术能力,但已提出了量子计算,因此该方法在时间尺度上仍然是长期的 ...
大型语言模型(LLM)显示出具有复杂推理的潜力,但是当在严格的群体限制的局部感知和沟通范围内运行时,它们在多机构系统(MAS)中的紧急协调能力在很大程度上没有探索。当代理商使用不完整的时空信息操作时,现有的基准通常不会完全捕获分散协调的独特挑战。为了弥合这一差距,我们介绍了Swarmbench,这是一种新颖的基准测试,旨在系统地评估LLMS的群体智能能力,充当分散剂 ...
数学推理是人工通用智能的基石,也是评估大语言模型(LLMS)功能的主要基准。尽管最先进的模型表现出希望,但面对需要深刻理解和复杂的多步审议的复杂问题时,它们常常会动摇。为了应对这一挑战,我们介绍了JT-MATH-8B,这是一系列基于系统的,多阶段优化框架的开源模型,其中包括基础,指导和思维版本 ...
在大型语言模型中,建模长上下文的需求不断增加,但是标准自我注意机制的二次复杂性通常变成了瓶颈。尽管现有的稀疏注意机制提高了效率,但它们仍可能遇到静态模式或信息丢失等问题。我们引入了可训练的动态面膜稀疏注意机制,动态面具的注意力,它有效地利用了内容感知和位置感知的稀疏性 ...
在本报告中,我们介绍了Falcon-H1,这是一系列新的大型语言模型(LLMS),其中包含针对各种用例的高性能和效率优化的混合体系结构设计。与较早的Falcon模型不同,Falcon-H1采用了一种平行的混合方法,将基于 Transformer 的注意力与状态空间模型(SSM)相结合,该方法以较高的长篇小说内存和计算效率而闻名。我们系统地重新审视了模型设计,数据策略和培训动态,并挑战了该领域的常规实践 ...
自引入以来,SoftMax的注意力已成为现代 Transformer 体系结构的骨干,这是由于其在各种任务中的表现力和可扩展性。但是,SoftMax注意的主要缺点是相对于序列长度的二次记忆要求和计算复杂性。通过替换SoftMax的非线性,引入了线性注意力和类似的方法,以避免使用SoftMax的二次瓶颈 ...
神经网络通常对输入和体重扰动高度敏感。这种敏感性与病理学有关,例如易受对抗性例子,分歧训练和过度拟合的脆弱性。为了解决这些问题,过去的研究已经从Lipschitz组件中构建了神经网络 ...