Cantaloupe的文档

Cantaloupe

个性签名 ...

Towards Lifelong Dialogue Agents via Timeline-based Memory Management

大型语言模型（LLM）能够在与用户长时间交互过程中处理冗长的对话历史，而无需额外的内存模块；然而，他们的反应往往会忽视或错误地回忆过去的信息。在本文中，我们重新审视 LLM 时代的记忆增强响应生成。虽然之前的工作重点是摆脱过时的记忆，但我们认为这些记忆可以提供上下文线索，帮助对话系统理解过去事件的发展，从而有利于响应的生成 ...

0 0 0 0 2025/07/05 arXiv:2406.10996v3 Cantaloupe

Incremental hierarchical text clustering methods: a review

Internet使用率的增长促成了大量连续可用的数据，并创造了对数据的自动和高效组织的需求。在这种情况下，文本聚类技术很重要，因为它们旨在根据文档的特征来组织文档。更具体地说，层次和增量聚类技术可以以层次形式组织动态数据，从而确保该组织已更新并促进其探索 ...

0 0 0 0 2025/06/09 arXiv:2312.07769v1 Cantaloupe

Online Hierarchical Clustering Approximations

分层聚类是一种广泛使用的方法，用于在多个粒度层面上群集数据集。尽管它很受欢迎，但现有的算法（例如层次结构聚类（HAC））仅限于离线设置，因此要求整个数据集可用。这禁止它们在现代学习应用程序中常见的大型数据集中使用 ...

0 0 0 0 2025/06/08 arXiv:1909.09667v1 Cantaloupe

Document-level Claim Extraction and Decontextualisation for Fact-Checking

选择哪些要求检查是人类事实检查者的一项耗时的任务，尤其是从包含多个句子和包含多个索赔的文件中。但是，现有的索赔提取方法更多地集中在识别和提取个人句子中的索赔，例如 ...

0 0 0 0 2025/05/30 arXiv:2406.03239v2 Cantaloupe

From Isolated Conversations to Hierarchical Schemas: Dynamic Tree Memory Representation for LLMs

大型语言模型的最新进展已大大改善了其上下文窗口，但在有效的长期记忆管理方面的挑战仍然存在。我们介绍了一种算法，该算法利用动态的，树结构的内存表示形式来优化信息的组织，检索和集成，类似于人类认知模式。 MEMTREE通过层次进行内存，每个节点都封装了汇总的文本内容，相应的语义嵌入以及在树深处的抽象级别变化 ...

0 0 0 0 2025/05/17 arXiv:2410.14052v3 Cantaloupe

On Memory Construction and Retrieval for Personalized Conversational Agents

为了在长期对话中提供连贯和个性化的经验，现有方法通常通过在转向级，会话级别的对话历史上构造记忆库来执行检索增强响应产生，或者通过汇总本文本文，我们提出了两个关键发现，我们提出了两个关键发现：（1）记忆单元的范围限制了：转向级别的范围，并且会限制层次化的方法，并总结级别，并列出了层次，并总结了级别，并列出了级别，并列出了级别，并列出了。以及检索到的内容的语义质量。（2）迅速的压缩方法，例如LLMlingua-2，可以有效地充当降解机制，从而增强不同粒度的记忆检索准确性。在这些见解的基础上，我们提出了SECOM，这种方法是通过引入对话分割模型来构建记忆库的方法，该模型将长期对话划分为局部连贯的细分市场，同时将基于压缩的基于压缩的deNo依次应用于内存单元以增强内存检索 ...

0 0 0 0 2025/04/12 arXiv:2502.05589v3 Cantaloupe

Visual Semantic Reasoning for Image-Text Matching

图像文本匹配一直是一个热门的研究主题，桥接了视觉和语言领域。它仍然具有挑战性，因为图像的当前表示通常缺乏相应的文本标题中的全局语义概念。为了解决这个问题，我们提出了一个简单且可解释的推理模型，以生成捕获场景的关键对象和语义概念的视觉表示 ...

0 0 0 0 2025/04/07 arXiv:1909.02701v1 Cantaloupe

Recent Trends in Personalized Dialogue Generation: A Review of Datasets, Methodologies, and Evaluations

通过个性化在对话代理中增强用户参与已获得重要意义，尤其是随着大型语言模型的出现，产生流利的响应。但是，个性化的对话生成是多方面的，其定义各不相同 - 从在代理中灌输角色到捕获用户的明确和隐性提示。本文旨在系统地调查个性化对话生成的最新景观，包括所采用的数据集，开发的方法和应用评估指标 ...

0 0 0 0 2025/04/06 arXiv:2405.17974v1 Cantaloupe

REGENT: A Retrieval-Augmented Generalist Agent That Can Act In-Context in New Environments

建立可以快速适应新环境的通才代理商是在数字和现实世界中部署AI的关键挑战。扩展当前代理体系结构是建造通才代理的最有效方法吗？我们提出了一种新颖的方法，可以在相对较小的数据集上预先培训相对较小的策略，并通过内在的学习将其调整为看不见的环境，而无需进行任何填充。我们的关键想法是，检索为快速适应提供了强大的偏见 ...

0 0 0 0 2025/03/13 arXiv:2412.04759v2 Cantaloupe

CoT2Align: Cross-Chain of Thought Distillation via Optimal Transport Alignment for Language Models with Different Tokenizers

大型语言模型（LLMS）在各种NLP任务中实现最先进的性能，但由于高计算成本和内存限制，面临部署挑战。知识蒸馏（KD）是一个有前途的解决方案，将知识从大型教师模型转移到较小的学生模型。但是，现有的KD方法通常假设共享的词汇和象征器，从而限制了它们的灵活性 ...

0 0 0 0 2025/03/10 arXiv:2502.16806v3 Cantaloupe