向通才代理商前进需要使用统一模型同时处理多个任务,从而强调了同时对多个下游任务的模型培训的重要性。多任务学习中的一个普遍问题是梯度冲突的发生,这导致了联合培训期间不同任务之间的潜在竞争。这项竞争通常会导致一项任务的改进,而另一个竞争则是牺牲另一个任务的牺牲 ...

0 0 0 0 2025/06/28 arXiv:2411.18615v1 火火火

我们旨在为世界模型开发一个基于模型的计划框架,可以通过仅使用语言和视觉输入的通用操纵任务来增加模型和数据预算来扩展。为此,我们提出了以流动为中心的生成计划(FLIP),这是一种基于模型的计划算法,具有三个关键模块:1。多模式流量生成模型作为通用动作动作提案模块; 2 ...

0 0 0 0 2025/06/27 arXiv:2412.08261v2 alex666

本文介绍了具有RGB-D图像序列的协作隐式神经同时定位和映射(SLAM)系统,该系统由完整的前端和后端模块组成,包括探测器,环检测,子图融合和全局细化。为了在统一的框架中启用所有这些模块,我们提出了一个基于新的神经点的3D场景表示形式,在该表示中,每个点都保留了场景编码的可学习神经功能,并且与某个密钥帧相关联。此外,提出了一种分布式到中心化的学习策略,以提高协作性隐含的大满贯,以提高一致性和合作 ...

0 0 0 0 2025/06/27 arXiv:2311.08013v1 701701

通过结合密集和稀疏(例如基于BM25的)检索方法,检索功能生成(RAG)系统中的混合检索技术可增强信息检索 ...

0 0 0 0 2025/06/27 arXiv:2503.23013v1 wrt136

本文提出了ControlMambair,这是一种新型的图像恢复方法,旨在解决图像der,脱张和变性任务中的感知挑战。通过将MAMBA网络体系结构与扩散模型集成,条件网络实现了精致的条件控制,从而增强了图像生成过程的控制和优化。为了评估我们方法在各种图像退化条件下的鲁棒性和概括能力,在几个基准数据集上进行了广泛的实验,包括Rain 100H,Rain100L,GoPro和SSID ...

0 0 0 0 2025/06/27 arXiv:2506.02633v1 Veggie

我们介绍了GLM-4-Voice,这是一个聪明且类似人类的端到端口语聊天机器人。它支持中文和英语,进行实时的语音对话,并根据用户说明来不同,例如情感,语调,语音率和方言。 GLM-4-VOICE使用超低比特量(175bps),单代码书籍 Token ,带有12 ...

0 0 0 0 2025/06/27 arXiv:2412.02612v1 wenzhanwujian

及时的工程(PE)已成为指导大型语言模型(LLM)解决复杂任务的关键技术。它的重要性强调了其显着提高人机相互作用的效率和有效性的潜力。随着任务越来越复杂,最近的高级PE方法已经扩展了单轮交互的局限性,以采用多发相互作用,从而使与LLMS更深入,更细微的互动 ...

0 0 0 0 2025/06/27 arXiv:2310.14201v2 lb47719448

视觉世界的长尾分布对基于深度学习的分类模型构成了巨大的挑战。现有的解决方案通常涉及集体平衡策略,例如 ...

0 1 0 0 2025/06/27 arXiv:1910.09217v2 yqstar

负面采样已被大量用于在大规模数据上训练推荐模型,其中采样示例通常不仅可以加速收敛性,而且可以提高模型的准确性。然而,尚未透露硬性阴性采样(HNS)有效性的原因。在这项工作中,我们通过对HNS进行彻底的理论分析来填补研究空白​​ ...

0 1 0 0 2025/06/27 arXiv:2302.03472v2 yqstar

多模式的大语言模型(MLLM)在革新图形用户界面(GUI)自动化方面显示出很大的潜力。但是,现有的GUI模型主要依赖于从几乎没有错误的离线轨迹中学习,因此缺乏反射和错误恢复功能。为了弥合这一差距,我们提出了GUI-Reflection,这是一个新颖的框架,将自我反射和误差校正能力明确整合到整个专用培训阶段中的端到端多模式GUI模型中:GUI特定的前培训,离线监督监督的细调(SFT)以及在线反射调节 ...

0 0 0 0 2025/06/27 arXiv:2506.08012v1 dqyzhwk

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)