我们提出了一种方法,可以有效地配备任何模型(SAM)具有生成区域字幕的能力。山姆提出了强烈的概括性,可以分割任何东西,而语义理解的缩写。通过引入一个基于查询的轻质特征混合器,我们将特定区域的特征与语言模型的嵌入空间保持一致,以供以后的字幕生成 ...
行动质量评估(AQA)定量评估人类行动的质量,提供自动评估,以减少人类判断中的偏见。它的应用程序涵盖了体育分析,技能评估和医疗服务等领域。 AQA的最新进展引入了创新的方法,但是类似的方法经常跨不同领域交织在一起,突出了阻碍系统评价的分散性质 ...
在这项研究中,我们通过一种创新的复合模仿学习方法来解决无人驾驶飞机(UAV)的挑战,该方法结合了近端政策优化(PPO)与行为克隆(BC)和生成对抗性的模仿学习(GAIL)的挑战,并通过雷传递技术的整合而丰富。我们的研究强调了射线追踪在增强障碍物检测和回避功能中的重要作用。此外,我们证明了将Gail纳入协调两种无人机的飞行路径的有效性,从而展示了提高的避免碰撞能力 ...
视觉驱动的自动驾驶飞行和避免沿着复杂的河流环境中无人驾驶汽车(UAV)进行救援和监视等任务的障碍需要强大的控制政策,由于可训练的河流环境模拟器的短缺,这仍然很难获得。为了轻松在现实世界部署前验证河流的基于视觉的导航控制器性能,我们使用Unity开发了可训练的无光动动态河流模拟环境。在本文中,我们解决了在这种部分可观察到的非马克维亚环境中学习导航策略时,香草增强学习(RL)算法遇到的缺点 ...
连接到Internet以及网络攻击的设备不断增加,因此有必要分析网络流量以识别恶意活动。传统的基于数据包的分析方法不足,因为在大型网络中,流量如此之高,以至于审查所有通信是不可行的。因此,流是针对这种情况的合适方法,在将来的5G网络中必须使用该方法,因为数据包的数量将大大增加 ...
在本文中,我们提出了一种新颖的方法,可以通过大型语言模型(LLM)模型来提高软件质量和效率,旨在审查代码并确定潜在问题。我们提出的基于LLM的AI代理模型对大型代码存储库进行了培训。该培训包括代码审查,错误报告和最佳实践文档 ...
具有文本对图像扩散模型的个性化图像生成基于参考图像内容生成了看不见的图像。零射器适配器方法(例如IP-ADAPTER和OMINICONTROL)特别有趣,因为它们不需要测试时间进行微调。但是,他们努力平衡保存个性化的内容和遵守文本提示 ...
探索是扩大用户体验超出其既定偏好的行为,这是由于反馈循环和用户探索模式的信号有限而在大规模推荐系统中挑战。大型语言模型(LLM)通过利用其世界知识推荐这些循环以外的新内容来发挥潜力。一个关键的挑战是将LLM与用户偏好保持一致,同时保留其知识和推理 ...