在本文中,我们介绍了线索组织Cluecorpus2020的中国语料库,这是一种大规模的语料库,可直接用于自我监督的学习,例如语言模型的预培训或语言产生。它具有100克原始语料库,其中有350亿个汉字,这是从普通爬网中检索出来的。为了更好地理解这种语料库,我们对小规模和大规模进行语言理解实验,结果表明,在该语料库中训练的模型可以在中文上取得出色的表现 ...
0 0 0 2025/09/13 arXiv:2003.01355v2 swaydy
嵌入式人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并且是连接网络空间和物理世界的各种应用的基础。最近,多模态大型模型(MLM)和世界模型(WM)的出现因其卓越的感知、交互和推理能力而引起了极大的关注,使它们成为具身智能体大脑的有前途的架构。然而,目前还没有针对传销时代的嵌入式人工智能的全面调查 ...
0 0 0 2025/09/13 arXiv:2407.06886v8 dazzled
我们介绍了群卷卷积神经网络(G-CNNS),这是卷积神经网络的自然概括,通过利用对称性来降低样品复杂性。 G-CNN使用G-Convolutions,这是一种与常规卷积层相比,重量共享程度要高得多的新型层。 G-Convoltions增加了网络的表达能力而不增加参数的数量 ...
0 0 0 2025/09/13 arXiv:1602.07576v3 chitose
现实世界中的搜索场景中的复杂信息需求需要跨不同来源的深层推理和知识综合,传统的检索效果生成(RAG)管道很难有效地解决。当前基于推理的方法受到基本限制:他们使用单个模型来处理高级计划和详细执行,从而导致推理效率低下和可扩展性有限。在本文中,我们介绍了HIRA,这是一个分层框架,将战略计划与专门执行区分开 ...
0 0 0 2025/09/13 arXiv:2507.02652v1 jueli
随着人工智能的快速发展,已经提出了许多机器学习算法,例如图形神经网络,以促进网络分析或图形数据挖掘。尽管有效,但最近的研究表明,这些先进的方法可能会遭受对抗攻击的影响,即 ...
0 0 0 2025/09/13 arXiv:2106.09501v2 xixiaixixi
现实世界中的多模式错误信息通常是由混合伪造来源引起的,需要动态推理和适应性验证。但是,现有方法主要依赖静态管道和有限的工具使用,从而限制了它们处理这种复杂性和多样性的能力。为了应对这一挑战,我们提出了T2Agent,这是一种新颖的错误信息检测剂,将可扩展的工具包与蒙特卡洛树搜索(MCTS)结合在一起 ...
0 0 0 2025/09/13 arXiv:2505.19768v1 Zero_Zh123
大型语言模型(LLMS)最近由于强大的概括和序列建模功能,在自然语言处理中表现出了令人印象深刻的能力。但是,由于两个基本问题:时间模式的固有异质性以及连续数值信号和离散语言表示之间的模态差距,它们直接应用时间序列预测仍然具有挑战性。在这项工作中,我们提出了TALON,这是一个统一的框架,通过建模时间异质性和执行语义一致性来增强基于LLM的预测 ...
0 0 0 2025/09/13 arXiv:2508.07195v1 18536357897
高级材料的发现是人类技术发展和进步的基石。材料及其相应特性的结构本质上是多个自由度的复杂相互作用(例如晶格,电荷,自旋,对称性和拓扑)的结果。这对材料的反设计方法构成了重大挑战 ...
0 0 0 2025/09/13 arXiv:2411.09429v4 maxwill

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)