配备逐步思维功能的多模式大语言模型(MLLM)在复杂的推理问题上表现出色。但是,对于无需复杂推理即可解决的简单问题,此思维过程是多余的。为了解决这种效率低下,我们提出了一种自动思想的MLLM R-4B,可以根据问题的复杂性自适应地决定何时思考 ...
本文探讨了一种见解,即语言模型自然可以使智能变异操作员在精神上与进化跨界相似。特别是,足够规模的语言模型表明了文化学习,即 ...
自动评估是对话系统研究的组成部分。通常发现基于参考的NLG指标不适合对话评估。因此,最近的研究提出了各种独特的无参考神经指标,以更好地与人类评估保持一致 ...
Big Bench(Srivastava等人,2022年)是一个多样化的评估套件,专注于被认为超出当前语言模型的功能的任务。语言模型在这个基准测试中已经取得了良好的进步,在大台纸中,最好的模型优于报道的平均报告人类评价者,从而在65%的大台式任务中通过很少的射击提示效果 ...
我们介绍了CRASS(反事实推理评估)数据集,并利用有问题的反事实条件作为一种新颖而有力的工具来评估大型语言模型。我们介绍数据集设计和基准测试,该设计支持对人群验证的人基线进行评分。我们针对我们的基准测试了六个最先进的模型 ...
本文提出了一种新颖的方法4DRECON,该方法将动态主体的单个相机RGB-D序列作为输入,并随时间推移输出完整的纹理变形3D模型。 4DRECON将输出编码为4D神经隐式表面,并提出了一个结合数据项和两个正则化项的优化过程。数据术语将4D隐式表面拟合到输入部分观测值 ...
尽管多模式的大语言模型(MLLM)在视觉理解和推理方面已经取得了重大进步,但它们作为图像质量评估(IQA)的强大,灵活,可解释和文本驱动的模型(IQA)的潜力仍然在很大程度上尚未探索。在本文中,我们对提示IQA的MLLM进行了全面,系统的研究。我们首先研究了MLLM的九个提示系统,作为心理物理学三种标准化测试程序的组合(i ...
实时构建高质量的密集地图对于机器人技术,AR/VR和数字双胞胎应用是必不可少的。随着神经辐射场(NERF)大大提高了映射性能,在本文中,我们提出了一种基于NERF的映射方法,该方法甚至可以在边缘计算机上实现更高质量的重建和实时功能。具体而言,我们提出了一种新型的层次混合表示形式,该表示由明确的OCTREE SDF先验辅助编码隐式多解决哈希,并在不同级别的细节级别描述了场景 ...