大型语言模型(LLM)已成为人工智能(AI)中的变革性工具,在文本生成,推理和决策等各种任务中表现出了出色的功能。尽管他们的成功主要是由计算能力和深度学习体系结构的进步驱动的,但在不确定性量化,决策,因果推理和分配转移等领域的出现问题需要更深入地参与统计领域。本文探讨了统计学家可以为LLM的发展做出重要贡献的潜在领域,尤其是那些旨在使人类用户具有信任度和透明度的领域 ...
语言模型功能的改进通常归因于模型大小或培训数据的增加,但是在某些情况下,经过精心策划的数据或具有不同架构决策的较小模型可以胜过对更多 Token 训练的大型模型。有什么解释?为了量化这些设计选择的影响,我们在各种各样的尺度上进行了92个开源预算模型,包括最先进的开放式型型号以及较少的性能模型以及那些具有较少传统设计决策的模型。我们发现,除了模型大小和训练 Token 数量之外,通过合并功能,我们可 ...
大型语言模型(LLMS)与人类语言网络中的神经活动表现出显着的相似性。但是,语言塑造类似大脑的表示的关键特性及其在训练中的演变作为不同任务的函数,尚不清楚。我们在这里基准测试34个培训检查点,跨越了8种不同模型大小的300B Token ,以分析大脑对齐方式与语言能力的关系 ...
现在,大型语言模型(LLM)令人印象深刻的能力现在已经建立了良好的建立,但是它们的有效部署需要仔细的超参数优化。通过涉及各种配置的网格搜索的广泛实证研究,我们发现了控制这些超参数的普遍缩放法律:最佳学习率遵循模型参数和数据大小的幂律关系,而最佳批量大小则主要具有数据尺寸。我们的分析揭示了在固定模型和数据尺寸条件下的超参数的凸优化景观 ...
动态图表现出相互交织的时空进化模式,在现实世界中广泛存在。然而,结构不完整,噪声和冗余导致动态图神经网络(DGNN)的鲁棒性差。动态图结构学习(DGSL)提供了一种优化图形结构的有希望的方法 ...
我们提出了Step-Video-T2V,这是一种具有30b参数的最先进的文本对电视预训练的模型,并且能够生成长度204帧的视频。深层压缩变量自动编码器Video-VAE是为视频生成任务而设计的,可实现16x16的空间和8倍的时间压缩比,同时保持出色的视频重建质量。用户提示使用两个双语文本编码器编码以处理英语和中文 ...
在陡峭的环境中,稳定的运动是四倍的机器人的重要任务,需要抵抗各种外部干扰的能力。最近的神经策略通过学习抵抗模拟环境中固定分布采样的外力来增强对障碍的鲁棒性。但是,力生成过程不考虑机器人的当前状态,因此很难确定可以将机器人推向最不稳定但可回收状态的最有效的方向和幅度 ...
在心理健康环境中,提供及时的支持和干预至关重要。随着年轻人对发短信的增长的需求,精神卫生提供者正在探索并采用基于文本的媒体,例如聊天机器人,基于社区的论坛,与持牌专业人员的在线疗法以及受过训练的响应者经营的热线服务的热线服务。为了支持这些基于文本的媒体进行心理健康 - 尤其是用于危机护理的问题 - 我们正在开发一个系统,以使用击键动态和情感分析的组合来执行被动情绪感密度 ...