本文试图解释您所需的所有基质计算,以了解深度神经网络的培训。我们没有超出您在微积分1中学到的知识的数学知识,并提供链接以帮助您在需要时刷新必要的数学。请注意,在开始学习训练和使用深度学习之前,您无需理解此材料;相反,这种材料适用于那些已经熟悉神经网络的基础知识,并希望加深对基础数学的理解的人 ...
0 0 0 2025/03/10 arXiv:1802.01528v3 parsifalster
我们提出了HealthGpt,这是一种强大的医学大型视觉模型(MED-LVLM),该模型将医学视觉理解和发电能力集成到统一自动回归范式中。我们的引导理念是逐步将异质的理解和发电知识适应预先训练的大语言模型(LLMS)。这是通过一种新型的异质低级适应(H-Lora)技术来实现的,该技术通过量身定制的层次视觉感知方法和三阶段的学习策略来补充 ...
0 0 0 2025/03/10 arXiv:2502.09838v3 robinyb
互联网规模的视频数据预测的最新进展导致了文本到视频生成模型的开发,这些模型可以在各种视觉概念上创建高质量的视频,综合现实动作并渲染复杂的对象。因此,这些生成模型有可能成为物理世界的通用模拟器。但是,目前尚不清楚现有的文本对视频生成模型距离这个目标有多远 ...
0 0 0 2025/03/10 arXiv:2406.03520v2 orangelcx
视觉和语言交叉点的问题无论是作为具有挑战性的研究问题还是对于它们所支持的丰富应用都具有重要意义。然而,我们世界的固有结构和我们语言的偏见往往是比视觉模式更简单的学习信号,导致模型忽略视觉信息,导致对其能力的夸大。我们建议在视觉问答(,vqa),并使视觉(,vqa中的v),我们通过收集互补图像来平衡流行的 ...
0 0 0 2025/03/10 arXiv:1612.00837v3 bage
扩展长篇文化能力对于大语言模型(LLM)至关重要。在长篇下说训练中摊销多个设备的内存消耗,in Inter-DATA分区(又称 ...
0 1 0 2025/03/10 arXiv:2502.21231v1 WuYP
专家(MOE)的混合物已被广泛用于将大型语言模型扩展到数万亿以上的参数,同时保持固定的计算成本。在分布式方案中,大型MOE模型的开发遇到了大型通信开销的问题。 MOE层的设备间通信可以通过流行的模型和框架占据整个模型执行的47%时间 ...
0 0 0 2025/03/10 arXiv:2502.19811v3 WuYP
在线大型语言模型(LLMS)推理服务的广泛使用引起了有关用户输入中私人信息潜在暴露于恶意窃听者的严重隐私问题。 LLMS的现有隐私保护方法遭受了不足的隐私保护,绩效降解或大量推理时间开销。为了解决这些限制,我们提出了Privacyrestore,这是一种插件方法,以保护LLM推断期间用户输入的隐私 ...
0 0 0 2025/03/10 arXiv:2406.01394v4 hwrabbit
在工业控制系统中,可编程逻辑控制器(PLC)代码的生成和验证对于确保运营效率和安全性至关重要。尽管大型语言模型(LLMS)在自动代码生成方面取得了长足的进步,但它们通常在提供正确的保证和专门支持PLC编程方面缺乏。为了应对这些挑战,本文介绍了代理4PLC,这是一个新颖的框架,不仅可以自动化PLC代码生成,而且还包括通过基于LLM的多代理系统的代码级验证 ...
0 1 0 2025/03/10 arXiv:2410.14209v2 chj1007

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)