我们介绍了CRASS(反事实推理评估)数据集,并利用有问题的反事实条件作为一种新颖而有力的工具来评估大型语言模型。我们介绍数据集设计和基准测试,该设计支持对人群验证的人基线进行评分。我们针对我们的基准测试了六个最先进的模型 ...
本文提出了一种新颖的方法4DRECON,该方法将动态主体的单个相机RGB-D序列作为输入,并随时间推移输出完整的纹理变形3D模型。 4DRECON将输出编码为4D神经隐式表面,并提出了一个结合数据项和两个正则化项的优化过程。数据术语将4D隐式表面拟合到输入部分观测值 ...
尽管多模式的大语言模型(MLLM)在视觉理解和推理方面已经取得了重大进步,但它们作为图像质量评估(IQA)的强大,灵活,可解释和文本驱动的模型(IQA)的潜力仍然在很大程度上尚未探索。在本文中,我们对提示IQA的MLLM进行了全面,系统的研究。我们首先研究了MLLM的九个提示系统,作为心理物理学三种标准化测试程序的组合(i ...
实时构建高质量的密集地图对于机器人技术,AR/VR和数字双胞胎应用是必不可少的。随着神经辐射场(NERF)大大提高了映射性能,在本文中,我们提出了一种基于NERF的映射方法,该方法甚至可以在边缘计算机上实现更高质量的重建和实时功能。具体而言,我们提出了一种新型的层次混合表示形式,该表示由明确的OCTREE SDF先验辅助编码隐式多解决哈希,并在不同级别的细节级别描述了场景 ...
已经证明,经过深思熟虑的(COT)提示可以改善各种任务的大型语言模型(LLM)。通过这种方法,LLM似乎在提供答案之前产生了类似人类的推理步骤(也是如此(也是如此) ...
无监督的技能发现(USD)允许代理人在没有特定特定任务的奖励的情况下自主学习多种行为。尽管最近的美元方法已经显示出希望,但它们在现实世界机器人技术中的应用仍未得到充实。在本文中,我们提出了一个模块化的USD框架,以应对学习技能的安全性,解释性和可部署性的挑战 ...
操作系统使用诸如过程,容器和隔离技术等摘要来强制逻辑隔离,以保护系统免受恶意或货物代码的影响。在本文中,我们通过文件系统展示了新型的侧渠道,这些侧频系统破坏了这种逻辑隔离。文件系统在操作系统中起着至关重要的作用,管理应用程序层和物理存储设备之间的所有I/O活动 ...
现代面部识别(FR)模型在受限的场景中表现出色,但由于围绕被捕获的面部数据的质量的不确定性而部署在不受限制的(现实世界中)环境中时的性能下降。面部图像质量评估(FIQA)技术旨在通过为FR模型提供样品质量预测来减轻这些性能降低,这些预测可用于拒绝低质量样本并减少错误的匹配错误。但是,尽管有稳定的改进,但确保具有不同特征的面部图像的可靠质量估计仍然具有挑战性 ...