去核扩散桥模型(DDBMS)是扩散模型的强大变体,用于在给出的两个任意配对分布之间插值。尽管在图像翻译之类的任务中具有有希望的性能,但DDBM仍需要计算密集的采样过程,该过程涉及通过数百个网络评估对(随机)微分方程进行模拟。在这项工作中,我们迈出了DDBM的快速采样的第一步,而无需额外的培训,这是由扩散模型中公认的食谱所激发的 ...
0 0 0 2025/05/28 arXiv:2405.15885v6 smallz
大型语言模型(LLM)的最新进展导致了能够与图形用户界面(GUIS)进行交互的智能代理的开发。这些代理人表现出强大的推理和适应性,使他们能够执行传统上需要预定义规则的复杂任务。但是,基于LLM的代理中对分步推理的依赖通常会导致效率低下,尤其是对于常规任务 ...
0 0 0 2025/05/28 arXiv:2503.02268v3 nnstake
本文介绍了RAG-KG-IL,这是一种新型的多代理混合框架,旨在通过将检索功能(RAG)和知识图(kgs)与增量学习(IL)方法整合到大语模型(LLMS)的推理能力(LLMS)。尽管有最近的进步,但LLMS在结构化数据,处理动态知识演变以及缓解幻觉的推理方面仍然面临重大挑战,尤其是在关键任务领域。我们提出的RAG-KG-IL框架通过采用一个多代理体系结构来解决这些局限性,该架构可以实现持续的知识更 ...
0 0 0 2025/05/28 arXiv:2503.13514v1 18636279200
虽然语音大语言模型(SpeechLlms)具有先进的标准自动语音识别(ASR),但对指定实体的上下文偏见和稀有词仍然具有挑战性,尤其是在大规模上。为了解决这个问题,我们提出了BR-ASR:通过两项创新的大规模上下文偏见(最多200k条目)的偏见检索框架:(1)语音和偏见的对比学习学习以检索语义相关的候选人; (2)动态课程学习会减轻同性混乱,从而对最终表现产生负面影响。这是一个通用框架,可以将检索 ...
0 0 0 2025/05/28 arXiv:2505.19179v1 ka
最近的研究表明,使用增强学习(RL)在建立推理模型中的功效,这些模型在产生最终答案之前阐明思想链。然而,尽管持续的进步旨在促进视力语言任务推理,但现有的开源视觉推理模型通常会用纯自然语言生成推理内容,而缺乏明确的视觉信息集成。这限制了他们产生清晰铰接和视觉扎根的推理链的能力 ...
0 0 0 2025/05/28 arXiv:2505.15879v1 ka
在各种情况下,基于骨架的动作识别基于关节的坐标及其在骨架数据中的连通性对人类行为进行了分类。尽管已经提出了用于图形表示的骨骼数据的图形卷积网络(GCN),但它们受到关节连通性约束的受体有限。为了解决这一限制,最近的进步引入了基于 Transformer 的方法 ...
0 0 0 2025/05/28 arXiv:2403.09508v3 ZZYHQCN
顺序推荐是推荐系统领域的关键领域,旨在基于具有不规则间隔的历史互动序列对用户兴趣进行建模。尽管以前基于神经网络的复发和基于注意力的方法取得了显着结果,但由于离散特征,它们在捕获系统连续性方面存在局限性。在连续时间建模的背景下,状态空间模型(SSM)提供了潜在的解决方案,因为它可以有效地捕获用户兴趣的动态演变 ...
0 0 1 2025/05/28 arXiv:2502.08132v2 sbjincheng
最近,研究人员在各种下游NLP任务中的角色广泛研究了大型语言模型(LLM)。作为NLP字段中的一项基本任务,中国语法误差校正(CGEC)旨在纠正输入句子中的所有潜在语法错误。先前的研究表明,由于其具有挑战性的任务重点,LLMS作为CGEC上的校正器的表现仍然不令人满意 ...
0 0 0 2025/05/28 arXiv:2402.11420v2 Ethan_Liu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)