图形神经网络已被广泛研究,用于通过相互连接的数据进行学习。尽管如此,最近的证据表明,GNNS的缺陷与过度阵型,异质,处理长距离依赖性,边缘不完整,尤其是完全没有图形有关。虽然一个合理的解决方案是学习新的自适应拓扑以进行消息传递,但有关二次复杂性的问题阻碍了同时保证大型网络中的可扩展性和精度 ...
0 0 0 2025/02/15 arXiv:2306.08385v1 zl841825577
基于流量的生成模型(DINH等人,2014年)在概念上在概念上具有吸引力,这是由于精确的对数似然性,确切的潜在可变推理的障碍性以及训练和合成的并行性。在本文中,我们提出了光泽,这是一种使用可逆的1x1卷积的简单类型的生成流 ...
0 0 0 2025/02/15 arXiv:1807.03039v2 Kelneth
人类通过同时处理和融合来自视觉和音频等多种方式的高维输入来感知世界。机器感知模型与鲜明的对比相比,通常是特定于模式的,并且针对单峰基准进行了优化,因此,最终表示或每种模式的预测(“ lates-fusion”)的后期融合仍然是多模态视频分类的主要范式。取而代之的是,我们介绍了一种基于 Transformer 的新型体系结构,该体系结构使用“融合瓶颈”进行多个层的模态融合 ...
0 0 0 2025/02/15 arXiv:2107.00135v3 蛙isme
近年来,使用大型现实世界数据进行的视觉预训练取得了长足的进步,显示出具有像素观测的机器人学习的巨大潜力。但是,对于机器人操纵任务的视觉预训练食谱尚未构建。在本文中,我们从三个基本角度彻底研究了视觉预训练策略对机器人操纵任务的影响:预训练数据集,模型体系结构和培训方法 ...
0 0 0 2025/02/15 arXiv:2308.03620v1 Jacky777
大型语言模型(LLMS)能够根据预训练期间存储在参数中的内部知识来执行零击闭合书答案任务。但是,这种内在知识可能不足和不正确,这可能导致LLMS产生实际错误的答案。此外,更新知识的微调LLMS很昂贵 ...
0 0 0 2025/02/15 arXiv:2306.04136v1 rxyy
我们介绍了电子结构模型:80亿和700亿个参数大语模型,这些模型适合于电子商务领域。这些模型是作为对电子商务具有深入了解的基础模型,这是指导和微调的基础。通过不断预处理骆驼3获得了电子结构模型 ...
0 0 0 2025/02/15 arXiv:2501.09706v2 liuweitang
对当今大型语言模型(LLM)的有效培训取决于大批次和长序列,以吞噬吞吐量和准确性。为了处理硬件加速器上的可变长度序列,引入填充 Token 是常见的实践,因此批次中的所有序列的长度相同。我们在本文中表明,通用NLP数据集中的序列长度的变化是使所有 Token 的50%都可以填充 ...
0 0 0 2025/02/15 arXiv:2107.02027v2 Cane_Wu
大型语言模型(LLMS)在一般任务中表现出色,但在特定领域的挑战(例如专业术语和本地化法规)中挣扎。现有的Financial LLM,例如Fingpt和Bloomberggpt,缺乏对泰国金融领域的支持。我们使用泰国证券交易所的投资顾问(IC)考试数据集开发了泰国金融LLM ...
0 0 0 2025/02/15 arXiv:2411.18242v1 liuweitang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)