sealaes的文档

The 3rd Place Solution of CCIR CUP 2025: A Framework for Retrieval-Augmented Generation in Multi-Turn Legal Conversation

检索增强生成在自然语言处理领域取得了重大进展。通过结合信息检索和大型语言模型的优势，RAG 可以根据从可靠来源检索的项目生成相关且适合上下文的响应。该技术在多个领域展现了出色的性能，但其在法律领域的应用仍处于探索阶段 ...

0 0 0 0 2025/10/21 arXiv:2510.15722v1 sealaes

Enhancing LLM Tool Use with High-quality Instruction Data from Knowledge Graph

教大型语言模型（LLM）使用工具对于提高解决问题的能力和扩大应用程序至关重要。但是，有效使用工具是具有挑战性的，因为它需要对工具功能和用户意图有深入的了解。以前的方法主要依赖于LLM来生成指令数据，但是这些数据的质量通常不足 ...

0 0 0 0 2025/10/04 arXiv:2506.21071v1 sealaes

SynDoc: A Hybrid Discriminative-Generative Framework for Enhancing Synthetic Domain-Adaptive Document Key Information Extraction

特定领域的视觉文档理解（VRDU）提出了重大挑战，这是由于文档在医学，金融和材料科学等领域的复杂性和敏感性。现有的大型（多模式）语言模型（LLMS/MLLM）取得了令人鼓舞的结果，但是面对面的限制，例如幻觉，域的适应不足以及依赖广泛的微调数据集。本文介绍了Syndoc，这是一个新颖的框架，结合了歧视性和生成性模型来应对这些挑战 ...

0 0 0 0 2025/10/03 arXiv:2509.23273v1 sealaes

Reinforcement Learning Foundations for Deep Research Systems: A Survey

深入的研究系统，通过协调推理，跨开放网络和用户文件搜索以及使用工具的代理AI，可以通过计划者，协调员和执行者进行分层部署。在实践中，培训整个堆栈端到端仍然不切实际，因此大多数工作都会训练与搜索，浏览和代码等核心工具连接的单个计划者。尽管SFT赋予协议保真度，但它遭受了模仿和暴露偏见的影响，并在环境反馈中不足 ...

0 0 0 0 2025/09/21 arXiv:2509.06733v1 sealaes

A Technical Survey of Reinforcement Learning Techniques for Large Language Models

强化学习（RL）已成为一种变革性的方法，用于结盟和增强大型语言模型（LLMS），应对以下教学，道德一致性和推理能力的关键挑战。这项调查为RL与语言模型的整合奠定了全面的基础，突出了突出的算法，例如近端政策优化（PPO），Q学习和参与者 - 批判性方法。此外，它提供了专门针对LLM的RL技术的广泛技术概述，包括从人类反馈（RLHF）和AI反馈（RLAIF）进行强化学习的基础方法，以及直接偏好优化（DPO）等先进策略（DPO）和小组相对策略优化（GRPO） ...

0 0 0 0 2025/09/03 arXiv:2507.04136v1 sealaes

Mobile-Agent-v3: Foundamental Agents for GUI Automation

本文介绍了Gui-Owl，这是一种基础GUI代理模型，在台面和移动环境的十个GUI基准上，在开源端到端模型之间实现了最先进的性能，涵盖了接地，问题答案，计划，计划，决策，决策和程序知识。 GUI-OWL-7B在Androidworld上达到66.4和29 ...

0 0 0 0 2025/08/31 arXiv:2508.15144v1 sealaes

Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning

图形检索仪（GraphRag）通过将零散的知识组织到明确结构的图中，从而有效地增强了复杂推理中的大型语言模型。已经采取了先前的努力来孤立地改善图形构造或图形检索，从而产生次优性能，尤其是在发生域移动时。在本文中，我们提出了一个垂直统一的代理范式Youtu-Graphrag，以将整个框架共同连接为复杂的集成 ...

0 0 0 0 2025/08/31 arXiv:2508.19855v1 sealaes

PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning

检索效果（RAG）在检索到上下文时通常不足，包括混淆半相关段落，或者回答问题时需要深入的上下文理解和推理。我们提出了一个有效的微调框架，称为Prismrag，该框架（i）用干扰者意识到的QA对模型进行训练，将黄金证据与微妙的干扰物段落混合在一起，以及（ii）以推理为中心的习惯，使LLM计划，合理化并综合不依赖于人类工程的人类工程指导，使LLM计划使LLM计划进行合成。 Prismrag在跨越各种应用程序域和方案的12个开放式抹布QA基准测试中进行了评估，将平均事实提高了5 ...

0 0 0 0 2025/07/30 arXiv:2507.18857v1 sealaes

Forging Time Series with Language: A Large Language Model Approach to Synthetic Data Generation

SDFORGER是一种灵活，有效的框架，用于使用LLMS生成高质量的多元时间序列。 SDFORGER利用紧凑的数据表示，从几个样品中提供了合成时间序列的生成，并对任何自回旋LLM的低计算进行微型调整。具体而言，该框架将单变量和多变量信号转换为表格嵌入，然后将其编码为文本并用于微调LLM ...

0 0 0 0 2025/06/29 arXiv:2505.17103v1 sealaes

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Trinity-RFT是一种通用，灵活且可扩展的框架，旨在加强大型语言模型的微调（RFT）。它是由脱钩的设计构建的，由（1）RFT核组成，该核核统一和概括了同步/异步，policy/policy/policy/off-policy以及RFT的在线/离线模式，（2）无缝整合，以使代理 - 环境互动以高效效率和稳健性以及（3）系统pipeliness ipline pipeliness ipline in floces-Environal互动。 Trinity-RFT可以轻松适应各种应用程序方案，并用作探索高级强化学习范式的统一平台 ...

0 0 0 0 2025/06/28 arXiv:2505.17826v1 sealaes