我们提出了Rapidpen,这是一种完全自动化的渗透测试(五处)框架,该框架解决了在没有人类干预的情况下实现初始立足(IP-to-shell)的挑战。与以前的方法不同,主要集中于探索后或需要人类的人类,Rapidpen利用大型语言模型(LLMS)自主发现和利用漏洞,从单个IP地址开始。通过将高级反应风格的任务计划(RE)与成功利用的检索知识基础以及命令生成和直接执行反馈循环(ACT)集成在一起,快 ...
0 0 0 2025/03/07 arXiv:2502.16730v1 quwu0820
有效的代理协调对于合作多代理增强学习(MARL)至关重要。虽然代理合作可以用图形结构表示,但MAL中的流行图学习方法受到限制。他们仅依靠一步观察,忽略了关键的历史经验,从而导致缺乏图形,从而促进了冗余或有害信息交换 ...
0 0 0 2025/03/06 arXiv:2403.19253v2 zasolla
多智能体场景中的强化学习对于现实世界的应用程序很重要,但也带来了单智能体设置之外的挑战。我们提出了一种演员批评家算法,该算法在多智能体设置中训练去中心化策略,使用集中计算的批评家,享一个注意力机制 ...
0 0 0 2025/03/06 arXiv:1810.02912v2 funer7
合作的多代理增强学习(MARL)需要在代理之间进行无缝的协作,通常以基本关系图来表示。现有学习该图的方法主要集中于代理对关系,忽略了高阶关系。尽管几种方法试图扩展合作建模以包含组内的行为相似性,但它们通常同时学习潜在图,从而在部分观察到的药物之间限制了信息交换 ...
0 0 0 2025/03/06 arXiv:2404.10976v3 zasolla
合作的多代理系统可自然地用于模拟许多现实世界中的问题,例如网络数据包路由和自动驾驶汽车的协调。非常需要新的强化学习方法,这些方法可以有效地学习此类系统的分散政策。为此,我们提出了一种称为反事实多代理(COMA)策略梯度的新的多代理参与者 - 批评方法 ...
0 0 0 2025/03/06 arXiv:1705.08926v3 zasolla
在复杂和不确定的环境中运行的体现的代理面临着巨大的挑战。尽管一些高级代理商以熟​​练的方式处理复杂的操纵任务,但他们的成功经常取决于广泛的培训数据以发展其能力。相比之下,人类通常依靠回顾过去的经历和类似情况来解决新问题 ...
0 0 0 2025/03/06 arXiv:2404.11699v1 dropball
我们考虑了多个自主代理必须在未知的,通信约束的环境中进行导航和执行任务的问题设置。传统的多代理增强学习(MARL)方法在这种环境中采用同步通信,并且在这种环境中表现较差。我们提出了Asyncomarl,这是一种异步MARL方法,它使用图形 Transformer 从动态图中学习通信协议 ...
0 0 0 2025/03/06 arXiv:2502.00558v2 赵旭阳
我们使用单个关节奖励信号研究了合作多代理增强学习的问题。由于通常具有较大的组合动作和观察空间,因此这类学习问题很困难。在完全集中和分散的方法中,我们发现了虚假的奖励问题,我们称之为“懒惰的代理人”问题,这是由于部分可观察性而引起的 ...
0 0 0 2025/03/06 arXiv:1706.05296v1 zasolla

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)