当前的检索增强生成(RAG)系统连接并处理许多需要大量计算的预填充文档块,因此导致了第一届时期(TTFT)的延迟。为了减少计算开销和TTFT,我们引入了Turborag,Turborag是一种新型的抹布系统,通过首先预先计算和存储文档的键值(KV)caches of turborag,然后直接将键值(kv)caches cache降低,然后直接检索保存的kv kv cache进行预填写。因此,在推断期间消除了KV缓存的在线计算 ...

0 0 0 0 2025/07/08 arXiv:2410.07590v1 mike_zhang

检索增强发电(RAG)提高了问答的正确性(QA),并解决了大语言模型(LLMS)中的幻觉,但大大提高了计算成本。此外,不总是需要抹布,因为可能会引入无关紧要的信息。最近的自适应检索方法将LLMS的内在知识与吸引LLM自我知识的外部信息相结合,但它们经常忽略效率评估和与不确定性估计技术的比较 ...

0 0 0 0 2025/07/08 arXiv:2501.12835v2 ZhangChi

随着输入上下文长度和模型尺寸的不断增长,最近的大型语言模型(LLMS)面临的推理潜伏期增加。特别是,通过合并外部知识来增强LLM响应的检索型生成(RAG)技术,通过大大增加输入 Token 的数量来加剧此问题。 Token 长度的这种扩展导致计算开销的大幅上升,尤其是在预填充阶段,导致了长时间的第一次tok(TTFT) ...

0 0 0 0 2025/07/08 arXiv:2504.11765v1 mike_zhang

该区块链最初是在2008年作为基础比特币的技术获得的,但现在已在各种应用程序中使用,并创造了截至2017年的全球市场。截至2017年,全球市场的价值超过150B。是什么区别于传统的分布式数据库与传统分布式数据库的区别在于在不依靠可信赖的第三方的情况下在分散的环境中运作的能力。因此,它们的核心技术组成部分是共识:如何达成一组节点之间的一致性 ...

0 0 0 0 2025/07/08 arXiv:1711.03936v2 lpfgss

大型语言模型(LLM)功率的多代理系统(MAS)证明了认知和执行能力远远超过了单个LLM代理的认知能力,但是它们的自我进化能力仍然受到欠发达的内存体系结构的阻碍。经过仔细检查,我们很震惊地发现,普遍的MAS内存机制(1)过于简单,完全无视细微的互动间协作轨迹,并且(2)缺乏与单位代理相比的跨案例和特定于特定于特定的定制,与单个代理相比鲜明对比。为了弥合这一差距,我们介绍了G-Memory,这是一个受组织内存理论启发的MAS的层次结构,代理存储系统,该系统通过三层图层次结构管理冗长的MAS相互作用:洞察力,查询和交互图 ...

0 0 0 0 2025/07/08 arXiv:2506.07398v2 colin66

我们介绍了Beverlit,这是一种新型方法,用于重建可靠的高分辨率头部化身,可以从新颖的观点以交互速度呈现。因此,我们提出了一种新的低成本光阶段捕获设置,该设置专门针对捕获面。使用此设置,我们收集了一个新的数据集,该数据集由不同的照明条件和面部表情的众多主题组成的多种多视图序列组成 ...

0 0 0 0 2025/07/08 arXiv:2506.06271v1 rcc

大型语言模型(LLM)在机器翻译(MT)方面取得了令人印象深刻的结果。但是,人类对人类的仔细评估表明,LLMS产生的翻译仍然包含多个错误。重要的是,将这些错误信息馈回LLM可以导致自我限制,并改善翻译性能 ...

0 0 0 0 2025/07/08 arXiv:2402.16379v3 ChenSF1998

我们提供Any4,这是一种用于大语模型(LLM)的4位权重量化解决方案,可提供任意数字表示,而无需预处理权重或激活。与其他相关的4位数字表示类型相比,Any4的精度更高:INT4,FP4和NF4,如在一系列模型,世代和家族的评估(Llama 2,Llama 3,Mistral和Mixtral)。虽然Any4不需要对权重或激活进行预处理,但它也与需要进行预处理的正交技术具有竞争力(e ...

0 0 0 0 2025/07/08 arXiv:2507.04610v1 felixslu

大型推理模型的最新进展使得逐步推理了复杂的复杂,但通常会引入重大的过度思考,从而导致冗长和冗余输出阻碍效率。在这项研究中,我们检查了诸如“ wait”和“ hmm”之类的 Token 信号的显式自我反射是高级推理所必需的。我们提出了Nowait,这是一种简单而有效的方法,可以通过抑制这些 Token 在推断过程中抑制明确的自我反思 ...

0 0 0 0 2025/07/08 arXiv:2506.08343v2 chenfeng

基于LLM的多代理系统(MAS)在增强单个LLM的潜力中表现出很大的潜力,可以解决实际应用中复杂而多样化的任务。尽管取得了长足的进步,但该领域缺乏统一的代码库来巩固现有方法,从而导致重新实施工作,不公平的比较和研究人员的高入口障碍。为了应对这些挑战,我们介绍了基于LLM的MAS的统一,全面且对研究的代码库Maslab ...

0 0 0 0 2025/07/08 arXiv:2505.16988v1 1150501302

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)