由缩放定律驱动的现代大型语言模型(LLM),以大型模型大小实现情报紧急情况。最近,人们对云成本,潜伏期和隐私的越来越关注使得它是开发紧凑型边缘语言模型的紧急要求。这项工作与缩放定律界定的直接训练区分开了,提出了预处理预处理,重点是保留更大的优化模型的性能 ...
0 0 0 2025/02/17 arXiv:2502.06663v2 messiy
随着chatgpt,gpt-4等大型语言模型的迅速普及,其安全问题越来越受到人们的关注。这些模型可能会产生侮辱性和歧视性的内容,反映不正确的社会价值观,并可能被用llm)的广泛应用尤为重要... ...
0 0 0 2025/02/17 arXiv:2304.10436v1 mtz_米筒子
我们展示了材料,这是一个完全自动化的统一扩散框架,旨在生成3D对象的物理材料。与依赖复杂管道或特定案例优化的现有方法不同,材料的任何东西都提供了适合各种照明条件下对象的强大的端到端解决方案。我们的方法利用了预先训练的图像扩散模型,通过三头体系结构增强并造成损失,以提高稳定性和材料质量 ...
0 0 0 2025/02/17 arXiv:2411.15138v1 Donutn
大型黑盒模型在众多应用中已变得无处不在。了解单个培训数据源对这些模型预测的影响对于提高其可信度至关重要。当前的影响估计技术涉及每个训练点的计算梯度或对不同子集的重复培训 ...
0 0 0 2025/02/17 arXiv:2402.08922v2 innerge
本文提出了一种用于源代码相似性检测的新方法,该方法将附加的输出功能集成到分类过程中,以改善模型性能。我们的方法基于GraphCodebert模型,该模型使用自定义输出特征层扩展和用于改进特征表示的串联机制。该模型经过训练和评估,从精确,召回和F量表方面取得了令人鼓舞的结果 ...
0 0 0 2025/02/17 arXiv:2408.08903v1 15966829631
相互信息(MI)最小化已在各种机器学习任务中获得了相当大的兴趣。但是,高维空间中的MI估计和最小化仍然是一个具有挑战性的问题,尤其是在仅访问样品而不是分配形式时。先前的工作主要集中于MI下限近似,这不适用于MI最小化问题 ...
0 0 0 2025/02/17 arXiv:2006.12013v6 jiaochenchen
鉴于正确回答问题所需的深厚技术知识,针对语言模型的特定于领域的问答仍然具有挑战性。对于不能像较大模型一样,在其参数中无法编码更多信息的较小语言模型的较小语言模型会放大此困难。 “专门用于电信网络的大型语言模型”挑战旨在提高两种小语言模型,即PHI-2和Falcon-7b在电信问题回答中的表现 ...
0 0 0 2025/02/17 arXiv:2408.10808v2 guoxuter
我们提出了 NeRF-Det,这是一种以摆好的 RGB 图像作为输入进行室内 3D 检测的新颖方法。与现有的难以对场景几何进行建模的室内 3D 检测方法不同,我们的方法以端到端的方式新颖地使用 NeRF 来显式估计 3D 几何,从而提高 3D 检测性能。具体来说,为了避免与 NeRF 每个场景优化相关的显着额外延迟,我们引入了足够的几何先验来增强 NeRF-MLP 的通用性 ...
0 0 0 2025/02/17 arXiv:2307.14620v1 yojewong

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)