尽管长期以来与AI加速科学发现方面的努力,但由于有限的培训和评估数据有限,建立AI共同科学家仍然具有挑战性。为了解决此数据稀缺问题,我们提出AutoSDT,这是一种自动管道,该管道在现实世界中数据驱动的发现工作流中收集高质量的编码任务。 AutoSDT利用LLMS的编码功能和参数知识来搜索各种来源,选择生态上有效的任务并合成准确的任务指令和代码解决方案 ...
通过有效平滑权重和激活中的异常值,旋转对于大语言模型(LLM)的最新量化管道至关重要。但是,进一步优化旋转参数仅提供有限的性能增长并引入了重要的训练开销:由于旋转参数共享,必须同时加载全模型以实现反向传播,从而导致大量的记忆消耗和有限的实用性。在这项工作中,我们确定了当前旋转量化方法的两个基本局限性:(i)旋转无法使通道平均值对齐,从而导致更大的量化范围和增加的舍入误差; (ii)旋转使激活分布更 ...
我们考虑了语言模型准确量化的问题,在该语言模型中,每个参数的权重和激活都均匀地量化为4位,这是GPU硬件在本质上支持的最低位宽度格式。在这种情况下,关键的挑战是激活量化:众所周知,语言模型包含的离群通道平均比其他通道高的数量级高,从而阻止了使用已知技术的准确的低位宽度量化。我们系统地研究了这种现象,发现这些异常通道在训练的早期就出现,并且它们在残留流的层中更频繁地发生 ...
高度竞争的西方文化的主要主权范式源于这样的信念,即成功主要是归功于人才,智慧,技能,努力或冒险的个人特质,即使不是完全归功于个人素质。有时,我们愿意承认,一定程度的运气也可以在取得巨大的物质成功中发挥作用。但是,实际上,低估外部力量在个体成功的故事中的重要性是相当普遍的 ...
本文介绍了meta的testgen-llm工具,llm来自动改进现有的人工编写的测试。testgen-llm验证其生成的测试类是否成功清除了一组过滤器,确保对原始测试套件进行可测量的改进,llm幻觉而导致的问题。我们在instagram和instagram和facebook平台的meta testgen-testgen-llm的部署... ...
时间序列预测在财务分析,天气预报和交通管理中具有重要的应用。但是,现有的深度学习模型在处理非平稳时间序列数据方面受到限制,因为它们无法有效捕获随着时间的变化而变化的统计特征。为了解决这个问题,本文提出了一个新的框架Aefin,该框架通过引入跨注意机制来增强稳定组件和不稳定组件之间的信息共享能力,并将傅立叶分析网络与MLP结合在一起,以深入探索不稳定组件中季节性模式和趋势特征 ...
长期以来,推理一直被视为大语言模型(LLMS)的新兴属性,出现在特定规模($ \ sim $ 100B参数)上。但是,最近的研究挑战了这一假设,表明小语言模型(SLM)也可以达到竞争推理性能。 SLM越来越喜欢其效率和可部署性 ...
通过训练它们明确生成中间的推理步骤,可以在大语言模型(LLMS)中显着增强正式的推理能力(COT)。尽管LLM很容易从此类技术中受益,但由于其模型有限的能力,小语言模型(SLM)的推理(SLM)仍然具有挑战性。 DeepSeek-R1的最新工作表明,从LLM生成的合成数据蒸馏可以大大提高SLM的推理能力 ...