arxiv的文档

arxiv 南京

个性签名 ...

TreeCat: Standalone Catalog Engine for Large Data Systems

随着数据的数量和异质性的增加，新的专用计算引擎的出现以及对复杂用例的需求，大型数据系统需要一个可以满足各种需求的性能目录系统。我们认为，现有的解决方案，包括最近的Lakehouse存储格式，具有根本的限制，并且对于专门作为目录的专业数据库引擎有强大的动力。我们介绍了Treecat的设计和实现，Treecat是一个具有基于路径的查询语言的层次数据模型，为有效范围查询和版本控制优化的存储格式以及可实现快速查询执行的相关扫描操作 ...

0 0 0 0 2025/08/04 arXiv:2503.02956v1 ShannonF7

GENIUS: A Generative Framework for Universal Multimodal Search

生成检索是信息检索中的一种新兴方法，该方法基于查询生成目标数据的标识符（ID），为传统基于嵌入的检索方法提供了有效的替代方案。但是，现有模型是特定于任务的，并且缺乏基于嵌入的性能检索。本文提出了Genius，这是一个普遍的生成检索框架，支持多种模式和领域的各种任务 ...

0 0 0 0 2025/08/04 arXiv:2503.19868v2 findtech

A Deep Dive into Generic Object Tracking: A Survey

由于复杂的时空动力学，尤其是在存在遮挡，相似的干扰因素和外观变化的情况下，通用对象跟踪仍然是计算机视觉中的重要但具有挑战性的任务。在过去的二十年中，已经引入了各种各样的跟踪范式，包括基于暹罗的跟踪器，歧视性跟踪器以及最近的基于著名的 Transformer 方法，以应对这些挑战。尽管该领域的一些现有调查论文集中在单个类别上，要么广泛涵盖了多个类别以捕获进度，但我们的论文对这三个类别进行了全面的评论，特别强调了迅速发展的基于 Transformer 的方法 ...

0 0 0 0 2025/08/04 arXiv:2507.23251v1 KingXHJ

UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

在本文中，我们提出了UNILIP，将剪辑扩展到重建，生成和编辑，从而在其出色的理解能力上构建统一的 Token 。以前的基于片段的统一方法通常需要额外的扩散解码器或量化来支持重建和生成任务，从而导致不一致的重建或对原始理解的重新构建或退化，我们引入了两阶段的训练方案，并引入了两阶段的培训方案，并逐步将重建能力逐步整合到剪辑中，以使其能够促进剪辑，从而使其能够有效地进行启动。此外，我们建议使用可学习的查询和最后一层的多模式隐藏状态作为关节条件，以连接MLLM和扩散 Transformer ，以连接MLLM和扩散 Transformer ...

0 0 0 0 2025/08/04 arXiv:2507.23278v1 Heart

Aligning Humans and Robots via Reinforcement Learning from Implicit Human Feedback

传统的加固学习（RL）AP经常在稀疏的奖励条件下努力学习有效的政策，因此需要手动设计复杂的，特定于任务的奖励功能。为了解决这一限制，从人类反馈（RLHF）中掌握的执行学习已成为一种有前途的策略，可以通过人为衍生的评估信号来补充手工制作的奖励。但是，大多数现有的RLHF方法都取决于明确的反馈机制，例如按钮按下或喜好标签，这些机制破坏了自然的交互过程，并对用户施加了重大的认知负担 ...

0 0 0 0 2025/08/04 arXiv:2507.13171v1 kuioma

SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models

传统的自主驾驶系统通常很难将高级推理与低水平控制联系起来，从而导致次优，有时甚至不安全。处理视觉和文本数据的多模式大语言模型（MLLM）的最新进展为统一感知和推理提供了机会。但是，有效地将精确的安全知识嵌入MLLM中以进行自主驾驶仍然是一个重大挑战 ...

0 0 0 0 2025/08/04 arXiv:2503.00211v2 chenlei

Monte Carlo Tree Diffusion for System 2 Planning

扩散模型最近已成为计划的强大工具。但是，与Monte Carlo Tree搜索（MCTS）不同 - 由于推理时间计算标准标准扩散计划者的性能自然可以改善，因此仅提供有限的可扩展性途径。在本文中，我们介绍了蒙特卡洛树扩散（MCTD），这是一个新颖的框架，将扩散模型的生成强度与MCT的自适应搜索能力相结合 ...

0 0 0 0 2025/08/04 arXiv:2502.07202v6 zlheos

Cognitive Memory in Large Language Models

本文研究了大语言模型（LLM）中的记忆机制，强调了它们对上下文响应的重要性，幻觉降低和提高效率。它将记忆分为感官，短期和长期，感官记忆对应于输入提示，短期内存处理即时上下文以及通过外部数据库或结构实现的长期内存。基于文本的内存部分涵盖了采集（选择和摘要），管理（更新，访问，存储和解决冲突）和利用率（全文搜索，SQL查询，语义搜索） ...

0 0 0 0 2025/08/04 arXiv:2504.02441v2 ShannonF7

Enhancing Real-Time Master Data Management with Complex Match and Merge Algorithms

主数据管理（MDM）可确保整个组织系统的数据完整性，一致性和可靠性。我引入了一种新颖的复杂匹配，并合并了用于实时MDM解决方案的算法。所提出的方法可以通过结合确定性匹配，模糊匹配和基于机器学习的冲突解决方案来准确地识别大规模数据集中的重复和巩固记录 ...

0 0 0 0 2025/08/04 arXiv:2410.17279v1 ShannonF7

SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling

大型语言模型（LLM）已从对话问题解决到解决涉及工具使用的现实世界任务，例如软件工程（SWE）。最近由LLM驱动的工具包（例如OpenAI Codex和Cursor）提供了软件开发过程的端到端自动化。但是，由于缺乏高质量的培训数据和有效的测试用例，建立有效的SWE代理仍然具有挑战性 ...

0 0 0 0 2025/08/04 arXiv:2506.07636v2 ray075hl