arxiv的文档

arxiv 南京

个性签名 ...

MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

大型语言模型（LLMS）的参数增加和广泛的数据集突出了对技术解决方案的紧急需求，以审核与LLMS相关的潜在隐私风险和版权问题。现有的研究通过探索训练前数据检测问题来部分解决这一需求，这是成员推理攻击（MIA）的实例。此问题涉及确定在目标LLM的训练阶段是否已使用给定文本 ...

0 0 0 0 2025/06/30 arXiv:2408.08661v1 hhhhh

SoK: The Privacy Paradox of Large Language Models: Advancements, Privacy Risks, and Mitigation

大型语言模型（LLMS）是复杂的人工智能系统，可使机器能够以显着的精度生成类似人类的文本。尽管LLM提供了重大的技术进步，但它们的开发使用从网络上刮下来的大量用户数据，并从广泛的用户交互中收集的是敏感信息泄漏的风险。大多数现有的调查都集中在培训数据的隐私影响上，但倾向于忽略用户互动和高级LLM功能的隐私风险 ...

0 0 0 0 2025/06/30 arXiv:2506.12699v2 hhhhh

SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks

大型语言模型（LLM）取得了杰出的成功，并广泛用于不同的应用程序。但是，对这些模型进行微调通常涉及私人或敏感信息，从而引发了关键的隐私问题。在这项工作中，我们进行了首次全面研究，评估了调节LLMS成员推理攻击（MIA）的脆弱性 ...

0 0 0 0 2025/06/30 arXiv:2506.10424v1 hhhhh

Reinforced Latent Reasoning for LLM-based Recommendation

大型语言模型（LLM）在复杂的解决问题的任务中表现出了令人印象深刻的推理能力，从而激发了人们对推荐系统中偏好推理的应用的日益兴趣。现有方法通常依赖于具有明确的思考链（COT）数据的微调。但是，由于（1）在建议中获得高质量的COT数据以及（2）产生COT推理引起的高推理潜伏期，因此这些方法面临着显着的实际限制 ...

0 0 0 0 2025/06/30 arXiv:2505.19092v1 zengzhiyun

Learning to assess subjective impressions from speech

我们解决了一项培训神经网络模型的新任务，该任务可以评估通过语音传达的主观印象并相应地分配得分，灵感来自自动语音质量评估（SQA）的工作。语音印象通常使用“可爱声音”之类的短语来描述。我们定义了主观语音描述符（SVD）等短语 ...

0 0 0 0 2025/06/30 arXiv:2506.19335v1 zhangqi33

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

这项工作探讨了使思想链（COT）推理可以链接多个图像的视觉提示。一个简单的解决方案是将基于规则的增强学习适应视觉模型（VLMS）。但是，这种方法通常依赖于手动策划的问答对，在处理精细的粒度视觉细节和跨图像的复杂逻辑时，这可能特别具有挑战性 ...

0 0 0 0 2025/06/30 arXiv:2506.22434v1 Barca

Bridging Offline and Online Reinforcement Learning for LLMs

我们调查了在从离线到半联盟的大型语言模型中，增强学习方法的有效性，以完成可验证和不可验证的任务的完全在线制度。我们的实验涵盖了对可验证的数学以及不可验证的指导进行的培训，并对两者进行了一组基准评估。在这些设置中，我们广泛比较在线和半对线直接偏好优化和小组奖励策略优化目标，并且出人意料地发现这些变体之间的性能和收敛性相似，这些变体的表现强烈胜过离线方法 ...

0 0 0 0 2025/06/30 arXiv:2506.21495v1 123hhloss

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network

持续控制的强化学习（RL）通常需要大量的在线交互数据。基于价值的RL方法可以通过提供相对较高的样品效率来减轻这种负担。一些研究通过将离线演示数据纳入“启动”训练来进一步提高样本效率，从而在连续控制中取得了令人鼓舞的结果 ...

0 0 0 0 2025/06/30 arXiv:2502.00288v2 qisia

xLAM: A Family of Large Action Models to Empower AI Agent Systems

由大语言模型（LLM）提供动力的自主代理人引起了重大的研究兴趣。但是，开源社区在为代理任务开发专门模型时面临许多挑战，这是由于高质量代理数据集的稀缺和该领域缺乏标准协议的驱动。我们介绍并公开发布XLAM，这是一系列专为AI代理任务设计的大型动作模型 ...

0 0 0 0 2025/06/30 arXiv:2409.03215v1 lightdf

TimePro: Efficient Multivariate Long-term Time Series Forecasting with Variable- and Time-Aware Hyper-state

在长期预测中，不同的变量通常会在不同的时间间隔内影响目标变量，这是一个被称为多延迟问题的挑战。传统模型通常会统一处理所有变量或时间点，这限制了其捕获复杂变量关系并获得非平凡时间表示的能力。为了解决这个问题，我们提出了TimePro，这是一种创新的基于MAMBA的模型，该模型构建了变量和时间吸引的超国家 ...

0 0 0 0 2025/06/30 arXiv:2505.20774v1 zjn_a