大型语言模型(LLM)代理人越来越能够自主进行网络攻击,对现有应用构成了重大威胁。这种日益增长的风险凸显了迫切需要进行现实世界中的基准评估LLM代理利用Web应用程序漏洞的能力。但是,现有的基准缺乏,因为它们仅限于抽象的捕获国旗竞赛或缺乏全面的覆盖范围 ...
检索增强的生成(RAG)系统已成为减轻LLM幻觉并增强其在知识密集型领域的性能的有前途解决方案。但是,这些系统容易受到对抗性中毒攻击的影响,其中将恶意段落注入检索数据库中可能会误导该模型以生成事实不正确的输出。在本文中,我们研究了抹布系统的检索和发电组成部分,以了解如何增强其对这种攻击的鲁棒性 ...
Humanoids in Hospitals: A Technical Study of Humanoid Surrogates for Dexterous Medical Interventions
在人口老龄化和劳动力短缺的推动下,对医护人员的需求不断增长,对医院带来了重大挑战。人形机器人可以通过利用人类的灵巧性和适应性来协助医疗程序来减轻这些压力。这项工作进行了一项探索性研究,该研究对人形机器人的可行性,通过远程运行执行直接临床任务 ...
尽管大型语言模型(LLMS)在自然语言任务上表现出色,但它们通常在精确的正式推理和严格的问题规范方面挣扎。我们提出MCP-Solver,这是模型上下文协议的原型实现,该协议证明了LLMS和约束编程系统之间系统整合的潜力。我们的实施为约束模型的创建,编辑和验证提供了接口 ...
自2007年发现了第一次快速无线电爆发(FRB)以及他们在2013年确认大量的人群以来,对这些来源的研究以令人难以置信的速度扩大了。在2019年对该主题的评论中,我们提出了一个不断增长但仍然神秘的FRB人群 - 60个独特的来源,2个重复的FRB,只有1个已确定的寄主银河系。但是,在短短的几年中,新的观察和发现为我们提供了有关这些来源的大量信息 ...
基于技能的强化学习(RL)已成为一种有希望的策略,以利用先验知识来加速机器人学习。技能通常是从专家示范中提取的,并嵌入到潜在空间中,可以由高级RL代理将其作为动作采样。但是,这个技能空间是广阔的,并不是所有技能都与给定的机器人状态有关,从而使探索变得困难 ...
大多数强化学习(RL)方法侧重于学习低级行动空间上的最优策略。虽然这些方法可以在训练环境中表现良好,但它们缺乏转移到新任务的灵活性。相反,能够执行有用的、暂时扩展的技能而不是低级操作的强化学习代理可以更轻松地学习新任务 ...
大型审计模型的全部潜力在很大程度上仍未限制在机器人技术等控制域中。这主要是因为数据缺乏以及与培训或对这些应用程序进行微调相关的计算挑战。先前的工作主要强调大型模型进行决策或单任务适应 ...