arxiv的文档

arxiv 南京

个性签名 ...

A-MEM: Agentic Memory for LLM Agents

尽管大型语言模型（LLM）代理可以有效地使用外部工具来进行复杂的现实世界任务，但它们需要内存系统来利用历史体验。当前的内存系统启用基本存储和检索，但尽管最近尝试合并图形数据库，但仍缺乏复杂的内存组织。此外，这些系统的固定操作和结构限制了它们在各种任务中的适应性 ...

0 0 0 0 2025/07/16 arXiv:2502.12110v10 elonmusk

A Thorough Review on Recent Deep Learning Methodologies for Image Captioning

图像字幕是将计算机视觉和自然语言处理结合在一起的任务，旨在为图像生成描述性传说。这是一个两倍的过程，依赖于精确的图像理解和纠正语言理解，句法和语义上都可以理解。由于该主题可用的知识越来越多，跟上图像字幕的最新研究和发现的最新研究和发现变得越来越困难 ...

0 0 0 0 2025/07/16 arXiv:2107.13114v1 Daxx

The Lessons of Developing Process Reward Models in Mathematical Reasoning

流程奖励模型（PRM）是大语模型（LLMS）数学推理过程中过程监督的有前途的方法，该方法旨在识别和减轻推理过程中的中间错误。 However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies.在本文中，通过广泛的实验，我们证明，与LLM-AS-A-A-A-a-gudge和人类注释方法相比，PRMS的基于Monte Carlo（MC）基于估计的数据合成通常会产生较低的性能和概括 ...

0 0 0 0 2025/07/16 arXiv:2501.07301v2 lyg

Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions

随着聊天机器人继续发展到类似人类的现实世界，相互作用，多模式仍然是研究和探索的积极领域。到目前为止，将多模式整合到聊天机器人中的努力主要集中在以图像为中心的任务上，例如视觉对话和基于图像的说明，重点是人类感知的“眼睛”，同时忽略了“耳朵”，即听觉方面。此外，这些研究通常围绕着静态相互作用，这些静态相互作用的重点是讨论这种方式，而不是自然地将其纳入对话中，从而限制了同时，动态参与的丰富性 ...

0 0 0 0 2025/07/16 arXiv:2506.00421v1 elonmusk

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

生成检索方法利用生成的顺序建模技术（例如 Transformer ）为推荐系统生成候选项目。这些方法在学术基准测试中表现出了令人鼓舞的结果，超过了传统的检索模型，例如两个塔楼的体系结构。但是，当前的生成检索方法缺乏工业推荐系统所需的可扩展性，并且它们不足以满足现代系统的多个度量要求 ...

0 0 0 0 2025/07/16 arXiv:2504.10507v2 wangyan123124

Ploutos: Towards interpretable stock movement prediction with financial large language model

大型语言模型（LLM）的最新进展为许多领域开辟了新途径。但是，LLM在金融投资中的全部潜力仍然在很大程度上尚未开发。对于定量金融的典型深度学习方法，有两个主要的挑战 ...

0 0 0 0 2025/07/16 arXiv:2403.00782v1 yang1young

Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts

文本排毒有可能通过重塑文本来消除进攻意义来减轻毒性的危害，但微妙的毒性仍然具有挑战性。我们介绍了一种使用自动编码器语言模型（LMS）的专家的产品组合可控制的生成和文本重写方法的解毒算法Marco。 Marco在无毒的LM（专家）和有毒的LM（抗Expert）下使用可能性，以找到候选词来掩盖并有可能取代 ...

0 0 0 0 2025/07/16 arXiv:2212.10543v2 mgk001

ARM: Adaptive Reasoning Model

尽管大型推理模型在复杂的任务上表现出强大的性能，但他们缺乏根据任务难度调整推理 Token 用法的能力。这通常会导致“过度思考”的问题 - 过度和不必要的推理 - 尽管人类干预可能会减轻控制 Token 预算的可能性，但从根本上讲，这仍然与实现完全自主的AI的目标相矛盾。在这项工作中，我们提出了自适应推理模型（ARM），该模型能够根据手头的任务适应选择适当的推理格式 ...

0 0 0 0 2025/07/16 arXiv:2505.20258v1 mingyu

DarkBench: Benchmarking Dark Patterns in Large Language Models

我们介绍了Darkbench，这是一种用于检测黑暗设计模式的综合基准 - 在与大语言模型（LLMS）相互作用中，会影响用户行为的操纵技术。我们的基准分别包括六个类别的660个提示：品牌偏见，用户保留，粘粘剂，拟人化，有害生成和潜行。我们评估了五家领先的公司（OpenAI，人类，元，Mistral，Google）的模型，并发现某些LLM的设计明确设计旨在偏爱开发人员的产品并表现出无法实现的交流，以及其他操纵性行为 ...

0 0 0 0 2025/07/16 arXiv:2503.10728v1 Curry123

First-Order Error Matters: Accurate Compensation for Quantized Large Language Models

培训后量化（PTQ）提供了一种有效的方法来压缩大型语言模型（LLMS），可大大降低内存访问和计算成本。在训练有素的全精度模型中，基于薪酬的重量校准方法通常依赖于二阶Taylor扩展来建模量化误差。但是，我们揭示了渐进赔偿过程引入了潜在权重及其全精度对应物之间的一阶偏差，从而使这一假设从根本上存在缺陷 ...

0 0 0 0 2025/07/16 arXiv:2507.11017v1 zhangxinyu