大型语言模型(LLM)的计算和记忆挑战已经引发了一些优化方法,以实现其有效的实施。尽管先前针对LLM的量化和稀疏加速度的先前工作已经显着减轻了内存和计算瓶颈,但他们这样做是假设高功率平台(例如GPU和服务器级FPGA)具有较大的离芯片内存储器带宽,并使用全身Matrix乘法(GEMM)执行所有decoderers in Decoderers in decoderers in decoderers。 ...
0 0 0 2025/09/10 arXiv:2503.11663v1 lee_e
面部过滤器已成为短形式视频内容的关键要素,从而实现了各种视觉效果,例如风格化和面部交换。但是,它们的性能经常在遮挡面前降低,其中诸如手,头发或配件之类的物体遮盖了脸部。为了解决这一限制,我们介绍了面部垫的新任务,该任务估计了细颗粒的阿尔法哑光,以将遮挡元素与面部区域分开 ...
0 0 0 2025/09/10 arXiv:2508.03055v2 SOOKIE
动态系统和深度学习的结合已成为一个引起人们极大兴趣的话题。特别是,神经微分方程(NDE)表明神经网络和微分方程是同一枚硬币的两个方程。传统的参数化微分方程是一种特殊情况 ...
0 0 0 2025/09/10 arXiv:2202.02435v1 parsifalster
为复杂,长马式任务的自主代理的开发是AI的核心目标。但是,主导训练范式面临着一个关键限制:仅优化最终任务成功的增强学习方法(RL)方法通常会增强缺陷或效率低下的推理路径,这是我们认为效率低下的问题。这导致代理商易碎且无法概括,因为他们学会了找到解决方案而不学习如何相干推理的解决方案 ...
0 0 0 2025/09/10 arXiv:2507.22844v1 wonders
我们介绍了SWE-Lancer,这是UPWOWS的1,400多个自由软件工程任务的基准,其价值为\ 100万美元,总额为100万美元。 SWE-Lancer涵盖了两个独立的工程任务 - 从\ $ 50的错误修复到\ $ 32,000的功能实现以及管理任务,其中模型在技术实施建议之间进行选择。独立任务通过经验丰富的软件工程师对端到端测试进行分级,而管理决策则根据原始雇用工程经理的选择进行评估 ...
0 0 0 2025/09/10 arXiv:2502.12115v4 leec
在本文中,我们描述了我们提交给Zerospeech 2021挑战和出色基准的提交。我们的提交基于最近提出的快速VGS模型,该模型是一个基于 Transformer 的模型,该模型学会将原始语音波形与语义相关的图像相关联,而无需使用任何语音的任何转录。此外,我们介绍了该模型Fast-VGS+的新型扩展,该模型以多任务方式学习,除了视觉接地目标外,还具有蒙版语言建模目标 ...
0 0 0 2025/09/10 arXiv:2202.03543v2 ssa
视觉 Transformer (VIT)取得了压倒性的成功,但它们却遭受了脆弱的分辨率可伸缩性,即,在介绍训练期间看不见的输入分辨率时,性能会大幅下降 ...
0 0 0 2025/09/10 arXiv:2212.00776v2 19113214550
评估大型语言模型(lm)生成的长文本的真实性并非易事,因为(1)生成的文本通常包含受支持和不受支持的信息片段的混合,使得质量的二元判断不充分,以及,(2),人工评估既费时又费钱。在本文中 ...
0 1 0 2025/09/10 arXiv:2305.14251v2 six666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)