监督的微调(SFT)和增强学习(RL)是基础模型的广泛使用的培训技术。但是,它们在增强模型概括功能中的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的差异,重点是基于文本的规则变体和视觉变体 ...
音频水印越来越多地用于验证AI生成的内容的出处,从而实现了诸如检测AI生成的语音,保护音乐IP和防御语音克隆之类的应用程序。为了有效,音频水印必须抵制扭曲信号以逃避检测的删除攻击。尽管许多方案声称鲁棒性,但这些主张通常是孤立的,并反对有限的攻击 ...
面对生成模型的新时代,人工产生的内容的检测已成为最重要的问题。特别是,在用户友好型平台上创建可靠的长时间合成音乐的能力在流媒体服务和对人类艺术家的不公平竞争中构成了真正的欺诈威胁。本文展示了包含真实音频和人工重建的数据集上培训分类器的可能性(令人惊讶的),具有令人信服的精度为99 ...
目前,大型语言模型(LLM)在心理咨询领域取得了重大进展。但是,现有的心理健康LLM忽略了一个关键问题,他们认为不同的心理顾问表现出不同的个人风格,包括语言风格和治疗技术等。结果,这些LLM无法满足寻求不同辅导风格的客户的个人需求 ...
大型推理模型(LRMS)(例如DeepSeek-R1和OpenAI O1系列)的最新进展通过通过思考链(COT)扩大生成长度来实现了复杂推理任务的显着性能。但是,新出现的问题是他们倾向于产生过度详细的推理过程,从而导致效率低下的问题。现有的有关提高效率的文献主要遵守诸如提示,推理,微调和推理之类的典型范式,但忽略了直接鼓励模型在推理过程中直接鼓励模型简单说话的有希望的方向 ...
云资源使用情况的大规模上升效果避免了服务可用性,导致中断,资源争夺和过度消耗。现有方法通过提供多云,VM迁移并运行每个VM的多个复制品来解决这一挑战,这些复制品是云数据中心(CDC)的高费用。在这种情况下,提出了一种新颖的VM显着性排名和基于资源估计的高可用性管理(SRE-HM)模型,以增强CDC优化成本的用户的服务可用性 ...
跨域少数射击对象检测(CD-FSOD)旨在通过有限的类实例在不同域中检测新对象。特征混乱,包括对象背景混乱和对象对象混乱,在跨域和少量设置中都面临着重大挑战。在这项工作中,我们介绍了CDFORMER,这是一种跨域几乎没有针对特征混乱的对象检测 Transformer ,以应对这些挑战 ...
我们如何估算知识图(kg)中节点的重要性? kg是一个多关系图,已证明对许多任务(包括问答和语义搜索)很有价值。在本文中,我们介绍了GENI,一种解决估计节点重要性问题的方法,该方法可以实现多个下游应用程序,例如项目建议和资源分配。尽管已经开发了许多方法来解决一般图表的问题,但它们并未完全利用kgs中可用的信息,或者缺乏对实体之间复杂关系及其重要性进行建模所需的灵活性 ...
许多强化学习(RL)环境由稀疏相互作用的独立实体组成。在这种环境中,RL代理在任何特定情况下对其他实体的影响力有限。我们在这项工作中的想法是,可以通过知道何时以及何时以及什么会影响其行动来有效地指导学习 ...
多代理探路(MAPF)是多代理系统中的核心挑战。现有的基于学习的MAPF方法通常会在可扩展性方面遇到困难,尤其是在解决容易陷入僵局的复杂场景时。为了应对这些挑战,我们介绍了LLMDR(LLM驱动的僵局检测和解决),该方法旨在解决僵局并改善学习的MAPF模型的性能 ...