深度神经网络在各个领域都表现出了出色的性能。但是,它们容易受到对抗性例子的影响,这可能会导致错误的预测。生成的对抗网络(GAN)可以利用发电机和鉴别器模型快速产生高质量的对抗示例 ...
随着对话剂越来越多地进行情感支持性对话,重要的是要了解他们的相互作用在传统治疗环境中的相似之处。这项研究调查了与机器人共同的关注点是否与人类对人类(H2H)治疗的共同的问题保持一致,以及机器人反应是否反映了人类治疗师的响应。我们分析了两个数据集:用户与专业治疗师之间的互动之一(拥抱Face的NLP心理健康对话),另一个涉及与社交机器人(来自Luxai的Qtrobot)的支持性对话(来自LLM,GP ...
随着对隐私的认识的越来越多以及在各种多机构系统应用领域(例如电力系统和智能运输)中的立法部署,近年来,多机构系统的隐私保护问题正在增加。本文讨论了提起的一些代表性进步 ...
(rl)(llm)推理的一种有前途的方法,但大多数开放式努力都集中在数学和代码上,但大多数开放式努力都集中在数学和代码上,从而限制了我们对其对一般推理的广泛适用性的理解。一个关键挑战在于缺乏各种推理领域的可靠 ...
通过可验证的奖励(RLVR)的增强学习使大型语言模型(LLMS)在具有客观基础答案(例如数学和代码生成)的推理任务中取得了显着突破。但是,对于不可验证的任务,例如创意写作和开放式对话,质量评估本质上是主观的,并且缺乏确定的参考文献,但仍然存在一个重大差距。这些领域的现有方法通常依赖于接受人类偏好训练的标量奖励模型,这些模型受到人类偏好的训练,这些模型的概括有限,并且容易奖励黑客攻击,例如过度解释和 ...
强化学习(RL)最近在增强大语言模型(LLMS)的推理能力方面具有强大的潜力。特别是,DeepSeek-R1-Zero引入的“零”强化学习可以直接对基本LLM进行直接培训,而无需依靠中间监督的微调阶段。尽管有这些进步,但当前用于LLM推理的作品主要集中于数学和编码域,这主要是由于数据丰度和易于答案验证 ...
人工智能(AI)代理是自主执行任务或基于预定义的目标和数据输入做出决定的软件实体。能够感知用户输入,推理和计划任务以及执行操作的AI代理在算法开发和任务性能方面取得了显着进步。但是,它们所带来的安全挑战仍然易于探索和尚未解决 ...
我们提出了ruckig,这是一种在线轨迹生成(OTG)的算法,尊重三阶约束和完整的运动靶状态。鉴于具有多个自由度(DOF)的系统的任何初始状态,ruckig可以计算出由其位置,速度和加速度定义的任意目标状态的时间优势轨迹,该目标状态受速度,加速度和混蛋约束的限制。提出的算法和实施允许三个贡献:(1)据我们所知,我们为任意多维目标状态(尤其是包括非零目标加速度)提供了第一个最佳的OTG OTG算法 ...