过多兼容的 Transformer 网络是大语言模型(LLMS)的最新体系结构。但是,这样的模型包含数十亿个参数,使大量计算是必要的,同时引起了环境问题。为了解决这些问题,我们提出了FinerCut,这是一种新形式的细粒层修剪,与在 Transformer 块级别上的先前工作相反,它考虑了所有自我注意事项和饲料前向网络(FFN)层,是个单个修剪候选者 ...
0 0 0 2025/04/18 arXiv:2405.18218v2 libai
自2008年以来,在提出比特币电子现金系统的提议之后,比特币在过去十年中从根本上改变了经济体系。自2022年以来,大型语言模型(LLM)(例如GPT)在许多现实生活中都超越了人类。但是,这些大型语言模型有几个实际问题 ...
0 0 0 2025/04/18 arXiv:2308.10502v1 lpfgss
llm系列的简单层修剪策略,发现在删除大部分(最多一半)层之前,不同问答基准上的性能下降最小。为了修剪这些模型,我们通过,我们通过考虑层之间的相似性来确定要修剪的最佳层块;然后,为了“治愈”,我们进行少量微调。特别是,我们使用参数高效微调,(peft)方法,特别是量化和低阶适配器(Qlora),这样我们的每个实验都可以在单个a100 gpu上执行... ...
0 0 0 2025/04/18 arXiv:2403.17887v2 libai
准确地对人/手和物体之间的详细相互作用进行建模是一项吸引人但又具有挑战性的任务。当前的多视图捕获系统只能将多个主题重构为一个统一的网格,该网格无法在交互过程中单独建模每个实例的状态。为了解决这个问题,以前的方法使用基于模板的表示来跟踪人/手和对象 ...
0 0 0 2025/04/18 arXiv:2312.09641v2 陆三七
大型语言模型(LLM)代理人越来越多地利用检索功能的生成(RAG)来改善其反应的事实。但是,实际上,这些系统通常需要处理模棱两可的用户查询以及来自多个来源的潜在相互矛盾的信息,同时也抑制了来自嘈杂或无关紧要的文档的不准确信息。先前的工作通常研究并解决了这些挑战,一次仅考虑一个方面,例如处理歧义或稳健性的噪声和错误信息 ...
0 0 0 2025/04/18 arXiv:2504.13079v1 三点一线
确定代数是准内生性是一个困难的问题。本文中引入了一种有效的方法,即绿色精神套件,以解决此问题。众所周知,当且仅当它承认简单模块的准遗传订单时,代数是准雌性的 ...
0 0 18 2025/04/18 arXiv:2405.02860v1 surenny233
跨域假新闻检测旨在通过跨域转移知识来减轻域的转移并提高检测性能。现有方法根据新闻内容和用户参与从源域转移到目标域。但是,这些方法面临两个主要局限性,阻碍了有效的知识转移和最佳的假新闻检测性能 ...
0 0 0 2025/04/18 arXiv:2502.14403v2 wuyi
多式联运的假新闻检测因其对社会保障的深刻影响而引起了人们的重大关注。尽管现有的方法有助于理解跨模式的一致性,但它们通常无法利用模态特定的表示和明确的差异功能。为了解决这些限制,我们提出了一个多模式反向注意网络(Mian),这是一个新颖的框架,该框架探索了基于新闻内容的固有判别特征,以推动假新闻检测 ...
0 0 0 2025/04/18 arXiv:2502.01699v1 wuyi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)