Daisyhhh的文档

Ten Challenging Problems in Federated Foundation Models

联合基础模型（FEDFM）代表了一个分布式学习范式，该范式融合了基础模型的一般能力以及联合学习的隐私能力。这种组合使远程客户端的大型基础模型和小型本地域模型可以在教师学习设置中相互学习。本文提供了有关FedFMS固有的十个挑战性问题的全面摘要，包括基础理论，私人数据的利用，持续学习，学习，非IID和图形数据，双向知识转移，激励机制设计，游戏机制设计，游戏机制设计，模型水印和效率 ...

0 0 0 0 2025/04/05 arXiv:2502.12176v1 Daisyhhh

PFLlib: A Beginner-Friendly and Comprehensive Personalized Federated Learning Library and Benchmark

在联合学习（FL）的持续进步中，这是一种机器学习范式，允许与数据隐私保护协作学习，个性化FL（PFL）已获得了佛罗里达州的研究方向的显着突出。尽管传统FL（TFL）着重于共同学习全球模型，但PFL旨在平衡每个客户在FL设置中的全球和个性化目标。为了培养PFL研究社区，我们启动并建立了PFLLIB，这是一个具有集成基准平台的综合PFL库 ...

0 0 0 0 2025/04/05 arXiv:2312.04992v2 Daisyhhh

LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions

大型语言模型（LLM）正在通过增强疾病分类和临床决策来彻底改变医学诊断。在这项研究中，我们使用症状和诊断的结构化数据集评估了两种基于LLM的诊断工具，DeepSeek R1和O3 Mini的性能。我们评估了他们在疾病和类别水平上的预测准确性，以及其置信度得分的可靠性 ...

0 0 0 0 2025/04/04 arXiv:2503.10486v1 Daisyhhh

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

推理是进行医学图像分析的关键领域，在临床医生信任和监管批准中，透明度和可信赖性在中心作用。尽管医学视觉语言模型（VLM）对放射学任务显示出希望，但大多数现有的VLM仅产生最终答案而没有揭示潜在的推理。为了解决这一差距，我们引入了MedVLM-R1，这是一种医学VLM，明确产生自然语言推理以提高透明度和可信度 ...

0 0 0 0 2025/04/01 arXiv:2502.19634v2 Daisyhhh

A Survey on Efficient Federated Learning Methods for Foundation Model Training

联邦学习（FL）已成为一种既定的技术，旨在促进众多客户提供隐私的协作培训。但是，FL的新方法经常讨论他们的贡献，仅涉及小型深度学习模型，并专注于培训客户的完整模型。在基础模型（FM）之后，对于许多深度学习应用，现实是不同的 ...

0 0 0 0 2025/03/19 arXiv:2401.04472v3 Daisyhhh

Parameter Efficient Reinforcement Learning from Human Feedback

人类反馈强化学习 (RLHF) 已被证明是一种使预训练大型语言模型 (LLM) 与人类偏好保持一致的强大方法。但使用 RLHF 训练模型的计算成本很高，而且整个过程很复杂。在这项工作中，我们研究了 RLHF，其中底层模型使用 Hu 等人引入的低秩适应（LoRA）参数有效方法进行训练 ...

0 0 0 0 2025/03/13 arXiv:2403.10704v2 Daisyhhh

Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning

大型语言模型（LLM）表现出令人印象深刻的能力，但他们仍然在数学推理方面挣扎。在这项工作中，我们提出了COT-纳克斯，这是一种新颖的方法，它推动了学习少量链链（COT）的边界，以改善LLM数学推理。在观察过程中，在提示中添加更多简洁的COT示例可以提高LLM推理性能，COT-文明采用粗到精细的修剪器来最大程度地提高有效和简洁的COT示例的输入 ...

0 0 0 0 2025/03/13 arXiv:2312.08901v3 Daisyhhh

TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning

在各种应用中，大型语言模型（LLM）（例如GPT-4）的患病率的增加导致了最佳性能所需提示的大小，从而导致了计算效率的挑战。迅速压缩旨在通过最大程度地减少输入 Token 而不损害任务性能来降低推理成本。但是，现有的提示压缩技术要么依赖于诸如信息熵之类的亚最佳指标，要么将其建模为任务不可能的 Token 分类问题，该问题无法捕获特定于任务的信息 ...

0 0 0 0 2025/03/12 arXiv:2409.13035v3 Daisyhhh

From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression

大型语言模型 (LLM) 在各种任务中使用先进的提示技术，取得了显着的性能提升。然而，提示长度的增加会导致较高的计算成本，并且常常会掩盖关键信息。已提出快速压缩来缓解这些问题，但它面临着以下挑战：(i) 捕获全局上下文和 (ii) 有效训练压缩器 ...

0 0 0 0 2025/03/10 arXiv:2410.04139v2 Daisyhhh

MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation

大型语言模型（LLM）正在成为各种自然语言处理任务的重要工具，但通常会因产生过时或不正确的信息而受苦。通过将外部，实时信息检索纳入地面LLM响应来解决此问题，从而解决了此问题。但是，现有的抹布系统经常在检索文档的质量上挣扎，因为文档无关或嘈杂的文档降低了性能，增加计算开销并破坏了响应可靠性 ...

0 0 0 0 2025/03/10 arXiv:2501.00332v1 Daisyhhh