大型语言模型包含对世界的嘈杂知识,但很难训练或微调。另一方面,认知体系结构具有出色的解释性,并且可以灵活地进行更新,但需要大量的手动工作才能实例化。在这项工作中,我们结合了两全其美的最好的:引导基于认知的模型与大型语言模型中编码的嘈杂知识 ...
0 0 0 2025/02/11 arXiv:2403.00810v1 18636279200
通过外部知识整合增强大语言模型(LLM)在增强大型语言模型(LLM)方面取得了显着成功,但其应用主要集中在文本内容上,使多模式视频知识的丰富领域主要没有探索。本文介绍了Videorag,这是第一个专门为处理和理解极其长篇小说视频而设计的检索生成框架。我们的核心创新在于其双通道体系结构,该体系结构无缝集成(i)基于图形的文本知识接地,用于捕获跨Video语义关系,以及(ii)多模式上下文编码以有效保 ...
0 1 0 2025/02/11 arXiv:2502.01549v1 hynj
使用基于点的技术实时神经渲染的最新进展已使3D表示更广泛地采用。但是,诸如3D高斯脱落之类的基础方法施加了大量的存储开销,因为从结构 - 运动(SFM)点可以增长到数百万,通常需要千兆字节级的磁盘空间才能单个无界场景。这种增长带来了可伸缩性的挑战,并阻碍了剥离效率 ...
0 0 0 2025/02/11 arXiv:2311.17245v6 wonglliam
检索增强的生成(RAG)是一种有力的策略,可以通过检索与查询相关的外部知识并将其纳入其生成过程中的外部知识,以解决基础模型中事实错误产出的问题。但是,现有的RAG方法主要集中在文本信息上,最近一些进步开始考虑图像,并且在很大程度上忽略了视频,这是能够比任何其他方式更有效地表示事件,过程和上下文细节的丰富多模式知识来源。虽然最近的一些研究探讨了视频在响应生成过程中的集成,但它们要么预先定义与查询相关 ...
0 0 0 2025/02/11 arXiv:2501.05874v1 hynj
通过预测治疗组和对照组之间的响应差异,以确定敏感的个体朝着优惠券或折扣之类的干预措施来确定敏感的人,从而广泛地用于在线营销中。与传统的\ textit {转换提升建模}相比,\ textit {Revenue Uplift Modeling}由于其与公司收入的直接联系而具有更高的潜力。但是,以前的工作几乎无法处理收入提升建模中的连续长尾响应分布 ...
0 0 1 2025/02/11 arXiv:2405.15301v2 zengyanxiang
多模式联合学习(FL)旨在丰富客户在多种模式中收集测量的FL设置中的模型培训。但是,对多模式FL的主要挑战仍然没有解决,尤其是在异质网络设置中:(i)每个客户收集的方式集将是多种多样的,(ii)沟通限制阻止客户将其所有经过本地训练的模式上传到上传到该模型服务器。在本文中,我们提出了具有联合模式和客户选择(MMFEDMC)的多模式联合学习,这是一种新的FL方法,可以应对多模式环境中上述挑战 ...
0 0 0 2025/02/11 arXiv:2401.16685v1 IQ_QI
神经辐射场(NERFS)在捕获具有高保真度的复杂3D场景方面具有巨大的潜力。但是,由于体积渲染,一项持续的挑战阻碍了NERF的广泛采用。另一方面,最近出现了3D高斯分裂(3DG)作为一种替代表示,它利用了基于3D高斯的表示,并采用了栅格化管道来渲染图像,而不是实力渲染,而不是实现非常快速的渲染速度和有希望的图像质量 ...
0 0 0 2025/02/11 arXiv:2311.13681v2 wonglliam
大型语言模型(LLM)表现出了各种领域的出色推理能力。最近的研究表明,增加测试时间计算增强了LLMS的推理能力。这通常涉及在推理时间以外部LLM验证器为指导的推理时间进行大量抽样,从而产生了两个玩具系统 ...
0 0 0 2025/02/11 arXiv:2502.02508v1 KingXHJ

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)