大语言模型(LLM)规模的迅速增加已大大升级了它们的计算和记忆需求,对有效部署提出了挑战,尤其是在资源受限的设备上。结构化修剪已成为一种有效的模型压缩方法,可以在保留性能的同时减少这些需求。在本文中,我们介绍了FASP(快速,准确的结构化修剪),这是一个针对LLM的新型结构化修剪框架,强调了速度和准确性 ...
0 0 0 2025/03/21 arXiv:2501.09412v1 shawn_ooo
语言引导的机器人抓钩是一个快速前进的领域,在该领域中,使用人类语言指示机器人掌握特定对象。但是,现有的方法通常取决于密集的相机视图,并难以快速更新场景,从而限制了它们在可变环境中的有效性。相比之下,我们提出了一种新型的开放式机器人抓握系统SparseGrasp,可通过稀疏视图RGB图像有效地运行,并迅速处理场景更新 ...
0 0 0 2025/03/21 arXiv:2412.02140v1 wu123
尽管用于推理加速的大语言模型 (LLM) 量化很受欢迎,但与各种量化格式相关的准确性与性能权衡仍然存在很大的不确定性。我们对量化精度进行了全面的实证研究,在整个 Llama-3.1 模型系列上跨学术基准和实际任务评估了流行的量化格式(FP8、INT8、INT4) ...
0 0 0 2025/03/21 arXiv:2411.02355v2 xiximayou
从人类演示中学习是一种有效的手段,可以教机器人操纵技巧。但是,由于涉及的成本和人力努力,数据采集是更广泛地应用此范式的主要瓶颈。对模仿双敏感机器人(如人形生物)的模仿学习引起了极大的兴趣 ...
0 0 0 2025/03/21 arXiv:2410.24185v2 xiewende
在Web数据中,广告图像对于吸引用户关注和提高广告效率至关重要。大多数现有方法都会为产品的背景产生主要关注的美学质量,这可能无法实现令人满意的在线性能。为了解决这一限制,我们探讨了多模式大语言模型(MLLM)的使用来通过优化点击率(CTR)作为主要目标来生成广告图像 ...
0 0 0 2025/03/21 arXiv:2502.06823v1 shupemg
尽管使用3D高斯脱落(3DG)在新型视图合成方面取得了成功,但对场景的建模稀疏仍然是一个挑战。在这项工作中,我们解决了实际稀疏输入建模中的两个关键但被忽视的问题:外推和遮挡。为了解决这些问题,我们建议使用一代管道的重建,从而利用从视频扩散模型中学到的先验的先验,以为视野外或遮挡的区域提供合理的解释 ...
0 0 0 2025/03/21 arXiv:2503.05082v1 陆三七
扩散模型是图像生成的最新模型。在大型数据集上训练,它们捕获了富有表现力的图像先验,这些先验已用于诸如介绍,深度和(表面)正常预测之类的任务。但是,这些模型通常经过一项特定任务的培训 ...
0 0 0 2025/03/21 arXiv:2501.13087v1 陆三七
我们引入了一个通用框架,用于假设标量量化的非线性变换码的率失真性能的端到端优化。该框架可用于结合任何可微的感知度量来优化任何可微的分析和合成变换对。作为一个例子,我们考虑一个由线性变换和多维局部增益控制形式构建的代码... ...
0 0 0 2025/03/21 arXiv:1607.05006v2 samaritan

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)