基于梯度的元学习方法主要应用于经典的机器学习任务,例如图像分类。最近,诸如神经操作员之类的诸如神经操作员之类的深度学习方法开始对学习和预测复杂物理系统的响应产生重要影响,直接直接从观察性数据中。由于在这种情况下的数据采集通常具有挑战性且昂贵,因此利用和将现有知识转移到新的和看不见的物理系统的呼吁更加敏锐 ...
0 0 0 2025/06/17 arXiv:2301.12095v2 maxwill
使用只有音频数据的口语理解系统正在越来越受欢迎,但它们处理看不见的意图的能力仍然有限。在这项研究中,我们提出了一个广义的零声音频到自然分类框架,每个意图只有几个示例文本句子。为了实现这一目标,我们首先使用自我监视的预训练的模型来训练受监督的音频到大量分类器 ...
0 0 0 2025/06/17 arXiv:2311.02482v1 zengzhiyun
跨模式检索旨在弥合不同模态之间的语义差距,例如视觉和文本数据,从而可以在它们之间进行准确的检索。尽管诸如将跨模式表示的剪辑等模型取得了显着进步,但仍然存在持续的挑战:集线器问题,其中一小部分样本(HUB)作为最近的邻居占主导地位,导致偏见表示并降解了检索准确性。现有方法通常通过事后正常化技术来减轻枢纽,这取决于在现实世界中可能不实用的先前数据分布 ...
0 0 0 2025/06/17 arXiv:2503.10526v1 syhhh
大型语言模型(LLMS)在语言理解和发电方面表现出色,但容易产生幻觉,产生了事实不正确或不支持的输出。检索增强发电(RAG)系统通过将LLM响应与外部知识接地。这项研究评估了使用三种检索方法评估LLM的检索有效性与幻觉降低之间的关系:基于BM25关键字搜索的稀疏检索,使用句子 Transformer 的语义搜索和拟议的混合检索模块,使用语义搜索进行了密集的检索 ...
0 0 0 2025/06/17 arXiv:2504.05324v1 ningshixian
本文提出了一种简单,有效且具有成本效益的策略,可以通过扩展测试时间计算来提高LLM性能。我们的策略建立在重复采样到投票框架的基础上,这是一个新颖的转折:结合了多种模型,甚至更弱的模型,以利用其互补优势,这可能是由多样化的培训数据和范式产生的。通过将一致性用作信号,我们的策略在模型之间动态切换 ...
0 0 0 2025/06/17 arXiv:2504.00762v4 Joyce0105
Experts混合物(MOE)模型的计算稀疏性可以随着模型尺寸的增加而在计算成本中的亚线性增长,从而为训练大规模的神经网络提供了可扩展的路径。但是,现有的实现遭受了\ emph {低gpu利用率},\ emph {显着的延迟开销},并且主要是由于CPU管理的调度,宿主启动,宿主启动的通信和频繁的kernel发射。为了克服这些局限性,我们开发了FlashDmoe,这是一个完全GPU居住的MOE操作员 ...
0 0 0 2025/06/17 arXiv:2506.04667v2 anhao
大规模的人类流动性表现出空间和时间模式,可以帮助决策者进行决策。尽管传统的预测模型试图捕获这些模式,但它们经常受到非周期性公共事件的干预,例如灾难和偶尔的庆祝活动。由于常规的人类流动性模式受这些事件的严重影响,因此估计其因果影响对于准确的活动性预测至关重要 ...
0 0 0 2025/06/17 arXiv:2412.02155v2 1737648397
大型语言模型(LLMS)具有执行文本学习(ICL)的非凡能力,这使他们能够同时处理多个下游任务,而无需特定于任务的微调。最近的研究表明,即使是中等大小的LLM,例如Mistral 7b,Gemma 7b和Llama-3 8b,也可以通过几次对所有任务进行几次细微调整来实现ICL。但是,这种方法仍然落后于专用的微调,在每个任务中都对单独的模型进行了训练 ...
0 0 0 2025/06/17 arXiv:2506.11103v1 fkxie

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)