尽管多模式的大语言模型(MLLM)在视觉理解和推理方面已经取得了重大进步,但它们作为图像质量评估(IQA)的强大,灵活,可解释和文本驱动的模型(IQA)的潜力仍然在很大程度上尚未探索。在本文中,我们对提示IQA的MLLM进行了全面,系统的研究。我们首先研究了MLLM的九个提示系统,作为心理物理学三种标准化测试程序的组合(i ...
实时构建高质量的密集地图对于机器人技术,AR/VR和数字双胞胎应用是必不可少的。随着神经辐射场(NERF)大大提高了映射性能,在本文中,我们提出了一种基于NERF的映射方法,该方法甚至可以在边缘计算机上实现更高质量的重建和实时功能。具体而言,我们提出了一种新型的层次混合表示形式,该表示由明确的OCTREE SDF先验辅助编码隐式多解决哈希,并在不同级别的细节级别描述了场景 ...
已经证明,经过深思熟虑的(COT)提示可以改善各种任务的大型语言模型(LLM)。通过这种方法,LLM似乎在提供答案之前产生了类似人类的推理步骤(也是如此(也是如此) ...
无监督的技能发现(USD)允许代理人在没有特定特定任务的奖励的情况下自主学习多种行为。尽管最近的美元方法已经显示出希望,但它们在现实世界机器人技术中的应用仍未得到充实。在本文中,我们提出了一个模块化的USD框架,以应对学习技能的安全性,解释性和可部署性的挑战 ...
操作系统使用诸如过程,容器和隔离技术等摘要来强制逻辑隔离,以保护系统免受恶意或货物代码的影响。在本文中,我们通过文件系统展示了新型的侧渠道,这些侧频系统破坏了这种逻辑隔离。文件系统在操作系统中起着至关重要的作用,管理应用程序层和物理存储设备之间的所有I/O活动 ...
现代面部识别(FR)模型在受限的场景中表现出色,但由于围绕被捕获的面部数据的质量的不确定性而部署在不受限制的(现实世界中)环境中时的性能下降。面部图像质量评估(FIQA)技术旨在通过为FR模型提供样品质量预测来减轻这些性能降低,这些预测可用于拒绝低质量样本并减少错误的匹配错误。但是,尽管有稳定的改进,但确保具有不同特征的面部图像的可靠质量估计仍然具有挑战性 ...
我们研究对象导航 - 要求位于新环境中的虚拟机器人导航到对象。先前的工作表明,在人类示范数据集上使用行为克隆(BC)的模仿学习(IL)取得了令人鼓舞的结果。但是,这有局限性 - 1)BC政策对新州的推广不佳,因为培训模仿行动而不是其后果,而2)收集示威很昂贵 ...
大型语言模型(LLM)正在催化科学发现的范式转变,从特定于任务的自动化工具变成了越来越多的自主代理,并从根本上重新定义了研究过程和人类AI协作。这项调查系统地绘制了这个新兴的领域,将LLMS在科学中不断变化的角色和不断提高的能力上提升的核心重点。通过科学方法的镜头,我们介绍了一个基础三级分类工具,分析师和科学家,以描绘其在研究生命周期内升级的自主权和不断发展的责任 ...