我们为一步生成建模提供了一个有效的有效框架。我们介绍了平均速度的概念以表征流场,与通过流匹配方法建模的瞬时速度相反。得出并用于指导神经网络训练之间的平均速度和瞬时速度之间定义明确的身份 ...
0 0 0 2025/05/22 arXiv:2505.13447v1 wenzhanwujian
了解大语言模型(LLM)的内部表示可以帮助解释模型的行为,并验证其与人类价值观的一致性。鉴于LLM的能力产生了人为理解的文本,我们建议利用模型本身以自然语言来解释其内部表示。我们介绍了一个名为PatchScopes的框架,并展示如何使用它来回答有关LLM计算的广泛问题 ...
0 0 0 2025/05/22 arXiv:2401.06102v4 YGking
搜索增强生成(RAG)在问答(QA)任务中的最新进展表现出了令人印象深刻的表现。然而,之前的大多数作品主要关注基于文本的答案。虽然一些研究涉及多模态数据,但它们在生成全面的多模态答案方面仍然存在不足,特别是在解释概念或提供有关如何实现特定目标的分步教程方面... ...
0 0 0 2025/05/22 arXiv:2408.08521v2 18636279200
在机器人辅助手术期间自动化缝合会减轻手术外科医生的负担,使他们能够专注于做出更高层次的决策,而不是在手术程序的众多复杂性中疲劳。准确的缝合线重建和抓握是缝合的重要先决条件,尤其是避免使用手术工具纠缠并进行复杂的线程操作。但是,由于内窥镜图像的噪音和线程特征稀疏性,这种方法必须对重大感知降解具有鲁棒性 ...
0 0 0 2025/05/22 arXiv:2408.16938v1 swang
利用预训练的扩散模型进行恢复最近已成为传统特定任务训练方法的偏爱替代方法。以前的工作通过使用显式降解模型限制解决方案空间取得了值得注意的成功。但是,当面对复杂的降解时,这些方法通常无法精确建模,因为它们通常无法精确建模 ...
0 0 0 2025/05/22 arXiv:2309.10810v1 哦吼
蒸馏已成为一种实用有效的方法,以增强开源语言模型的推理能力。在这项工作中,我们通过从三个最先进的教师模型 - 思考-V1,QWEN3-235B-A22B和DeepSeek-r1-R1-On收集经过验证的输出,对推理数据蒸馏进行了大规模的实证研究 ...
0 0 0 2025/05/22 arXiv:2505.14464v1 chrisxiong
近年来,变形金刚已成为长期序列预测(LTSF)的事实上的架构,但面临诸如二次复杂性和置换不变偏见之类的挑战。基于选择性状态空间模型(SSM)的最新模型Mamba已成为 Transformer 的竞争替代品,提供了与序列长度相关的较高吞吐量和线性复杂性的可比性能。在这项研究中,我们分析了LTSF中当前MAMBA的局限性,并提出了四个有针对性的改进,从而导致了曼巴特 ...
0 0 0 2025/05/22 arXiv:2405.16440v1 zjn_a
虽然可以通过多种方式翻译源句,但大多数机器翻译(MT)模型仅使用单个参考训练。先前的工作表明,使用合成释义可以改善MT。本文通过分析PAR3数据集中世界文献不同英语翻译之间的语义相似性来研究采用多种参考的最佳实践 ...
0 0 0 2025/05/22 arXiv:2412.18707v2 NeverSettle

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)