我们对变形金刚作为时间序列基础模型进行了全面分析,重点是它们的近似和概括功能。首先,我们证明存在通过梯度下降在输入单变量时间序列上适合自回归模型的 Transformer 。然后,我们分析Moirai,这是一个多元时间序列基础模型,能够处理任意数量的协变量 ...
0 0 0 2025/08/28 arXiv:2502.03383v1 xubiao
大型语言模型(LLMS)在其参数中具有大量知识,促使对定位和编辑此知识的方法进行研究。以前的工作主要集中在较小的模型中找到与实体相关的(通常是单一的)事实。但是,几个关键问题仍未得到答复:(1)我们如何在仅解码器的LLM中有效地定位与查询相关的神经元,例如Llama和Mistral? (2)我们如何应对长形(或自由形式)文本生成的挑战? (3)LLM中是否有本地化知识区域?在这项研究中,我们引入了 ...
0 0 0 2025/08/28 arXiv:2406.10868v4 Daenerays
在本文中,我们引入了一种新颖的学习范式,用于自适应大语模型(LLM)代理,该模型消除了对基础LLM的微调需求。现有方法通常是刚性的,依赖于静态,手工的反射工作流,或计算密集型,需要LLM模型参数的梯度更新。相比之下,我们的方法可以通过基于内存的在线增强学习来实现低成本的持续适应 ...
0 0 0 2025/08/28 arXiv:2508.16153v2 baishanxiaoqi
基于学习的边缘检测通常会遭受预测厚边缘。通过具有新的边缘脆度度量的广泛定量研究,我们发现嘈杂的人类标记的边缘是厚实预测的主要原因。基于这一观察结果,我们主张应比型号设计更多地关注标签质量,以实现边缘检测 ...
0 0 0 2025/08/28 arXiv:2306.15172v1 zcr10086
注意是 Transformer 体系结构的关键部分。这是一个序列到序列映射,将每个序列元素转换为一个值的加权总和。权重通常作为键和查询之间的点产物的软效果 ...
0 0 0 2025/08/28 arXiv:2409.04431v2 xubiao
视觉生成和理解之间的表示差异在将这些功能集成到单个框架中时施加了关键的差距。为了弥合这一差距,我们介绍了一种离散的视觉 Token 仪,它编码了生成细节的细节,同时还捕获了高级语义以供理解。尽管最近的研究表明,这些目标可能引起训练中的损失冲突,但我们揭示了基础瓶颈源于离散 Token 的代表性有限 ...
0 0 0 2025/08/28 arXiv:2502.20321v2 qzfm
o1 模型在复杂推理中的卓越表现表明,测试时计算扩展可以进一步释放模型的潜力,从而实现强大的 System-2 思维。然而,仍然缺乏对测试时计算扩展的全面调查。我们将测试时计算的概念追溯到 System-1 模型 ...
0 0 0 2025/08/28 arXiv:2501.02497v3 allez
我们提出了广义 LoRA (GLoRA),这是一种用于通用参数高效微调任务的高级方法。 GLoRA 增强了低秩适应 (LoRA),采用通用提示模块来优化预训练模型权重并调整中间激活,从而在不同的任务和数据集上提供更大的灵活性和功能。此外,GLoRA 通过采用可扩展、模块化、逐层结构搜索来学习每层的单独适配器,从而促进高效的参数自适应 ...
0 0 0 2025/08/28 arXiv:2306.07967v2 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)