arxiv的文档

arxiv 南京

个性签名 ...

Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs

随着输入上下文长度和模型尺寸的不断增长，最近的大型语言模型（LLMS）面临的推理潜伏期增加。特别是，通过合并外部知识来增强LLM响应的检索型生成（RAG）技术，通过大大增加输入 Token 的数量来加剧此问题。 Token 长度的这种扩展导致计算开销的大幅上升，尤其是在预填充阶段，导致了长时间的第一次tok（TTFT） ...

0 0 0 0 2025/07/08 arXiv:2504.11765v1 mike_zhang

Consensus in the Age of Blockchains

该区块链最初是在2008年作为基础比特币的技术获得的，但现在已在各种应用程序中使用，并创造了截至2017年的全球市场。截至2017年，全球市场的价值超过150B。是什么区别于传统的分布式数据库与传统分布式数据库的区别在于在不依靠可信赖的第三方的情况下在分散的环境中运作的能力。因此，它们的核心技术组成部分是共识：如何达成一组节点之间的一致性 ...

0 0 0 0 2025/07/08 arXiv:1711.03936v2 lpfgss

G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems

大型语言模型（LLM）功率的多代理系统（MAS）证明了认知和执行能力远远超过了单个LLM代理的认知能力，但是它们的自我进化能力仍然受到欠发达的内存体系结构的阻碍。经过仔细检查，我们很震惊地发现，普遍的MAS内存机制（1）过于简单，完全无视细微的互动间协作轨迹，并且（2）缺乏与单位代理相比的跨案例和特定于特定于特定的定制，与单个代理相比鲜明对比。为了弥合这一差距，我们介绍了G-Memory，这是一个受组织内存理论启发的MAS的层次结构，代理存储系统，该系统通过三层图层次结构管理冗长的MAS相互作用：洞察力，查询和交互图 ...

0 0 0 0 2025/07/08 arXiv:2506.07398v2 colin66

BecomingLit: Relightable Gaussian Avatars with Hybrid Neural Shading

我们介绍了Beverlit，这是一种新型方法，用于重建可靠的高分辨率头部化身，可以从新颖的观点以交互速度呈现。因此，我们提出了一种新的低成本光阶段捕获设置，该设置专门针对捕获面。使用此设置，我们收集了一个新的数据集，该数据集由不同的照明条件和面部表情的众多主题组成的多种多视图序列组成 ...

0 0 0 0 2025/07/08 arXiv:2506.06271v1 rcc

TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement

大型语言模型（LLM）在机器翻译（MT）方面取得了令人印象深刻的结果。但是，人类对人类的仔细评估表明，LLMS产生的翻译仍然包含多个错误。重要的是，将这些错误信息馈回LLM可以导致自我限制，并改善翻译性能 ...

0 0 0 0 2025/07/08 arXiv:2402.16379v3 ChenSF1998

any4: Learned 4-bit Numeric Representation for LLMs

我们提供Any4，这是一种用于大语模型（LLM）的4位权重量化解决方案，可提供任意数字表示，而无需预处理权重或激活。与其他相关的4位数字表示类型相比，Any4的精度更高：INT4，FP4和NF4，如在一系列模型，世代和家族的评估（Llama 2，Llama 3，Mistral和Mixtral）。虽然Any4不需要对权重或激活进行预处理，但它也与需要进行预处理的正交技术具有竞争力（e ...

0 0 0 0 2025/07/08 arXiv:2507.04610v1 felixslu

Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency

大型推理模型的最新进展使得逐步推理了复杂的复杂，但通常会引入重大的过度思考，从而导致冗长和冗余输出阻碍效率。在这项研究中，我们检查了诸如“ wait”和“ hmm”之类的 Token 信号的显式自我反射是高级推理所必需的。我们提出了Nowait，这是一种简单而有效的方法，可以通过抑制这些 Token 在推断过程中抑制明确的自我反思 ...

0 0 0 0 2025/07/08 arXiv:2506.08343v2 chenfeng

MASLab: A Unified and Comprehensive Codebase for LLM-based Multi-Agent Systems

基于LLM的多代理系统（MAS）在增强单个LLM的潜力中表现出很大的潜力，可以解决实际应用中复杂而多样化的任务。尽管取得了长足的进步，但该领域缺乏统一的代码库来巩固现有方法，从而导致重新实施工作，不公平的比较和研究人员的高入口障碍。为了应对这些挑战，我们介绍了基于LLM的MAS的统一，全面且对研究的代码库Maslab ...

0 0 0 0 2025/07/08 arXiv:2505.16988v1 1150501302

Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation

通过将其在外部知识源中接收成果，检索增强的生成（RAG）已成为增强大型语言模型（LLM）的一种变革性方法。但是，一个关键的问题仍然存在：如何在LLMS的输入约束中有效管理大量外部知识？传统方法通过将外部文档分解为较小的固定尺寸细分市场来解决这一问题。尽管这种方法减轻了输入局限性，但它通常会碎裂上下文，从而导致发电的连贯性不完整和减少 ...

0 0 0 0 2025/07/08 arXiv:2504.19754v1 weight

Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis

分解是检索型生成（RAG）系统中至关重要的预处理步骤，从而显着影响各种数据集的检索有效性。在这项研究中，我们使用多个嵌入式模型系统地评估了固定尺寸的块策略及其对检索性能的影响。我们在短形式和长形数据集上进行的实验表明，块大小在检索有效性中起着至关重要的作用 - 对于具有简洁的基于事实的答案的数据集较小的块（64-128 Token ）是最佳的，而基于事实的答案，而较大的块（512-1024 Tokens）在数据范围内提高了较大的范围的理解 ...

0 0 0 0 2025/07/08 arXiv:2505.21700v2 weight