评估大型语言模型(LLM)对人类的理解,而不仅仅是文本,这仍然是一个开放的挑战。为了弥合差距,我们引入了有声学代理作为法官(SAGE),这是一个自动化评估框架,可衡量LLM的高阶社交认知。 Sage实例化了一种有知觉的代理,该代理在互动过程中模拟了类似人类的情感变化和内在思想,从而在多转交谈中对测试模型进行了更现实的评估 ...
降级扩散模型的固有生成能力使它们非常适合图像恢复任务,其中目的是在生成空间内找到与输入图像相似的生成空间中的最佳高质量图像。我们提出了一种通过简单地将噪声添加到要恢复的输入图像然后然后去诺的方法来调整图像恢复的预处理扩散模型的方法。我们的方法基于这样的观察,即需要限制生成模型的空间 ...
随着大规模模型的发展,语言指令越来越多地用于多模式任务。由于人类的语言习惯,这些说明通常包含在现实情况下的歧义,因此需要将视觉上下文或常识的整合以进行准确的解释。但是,即使是高度智能的大型模型也对模棱两可的说明显示出显着的性能限制,在这种指示中,弱势歧义的推理能力可能导致灾难性错误 ...
对基于图像的医学查询的语言回答的医学视觉问题答案(MEDVQA)代表了一项艰巨的任务和医疗保健方面的重大进步。它有助于医学专家迅速解释医学图像,从而更快,更准确地诊断。但是,现有的MEDVQA解决方案的模型可解释性和透明度通常受到限制,在理解其决策过程时面临着挑战 ...
随着大型语言模型(LLM)越来越多地部署在医疗保健,法律和教育等敏感领域中,对透明,可解释和负责的AI系统的需求变得更加紧迫。可解释的AI(XAI)充当了LLM不透明推理与依靠其在高风险决策中产出的各种利益相关者之间的关键界面。本文对LLM的XAI进行了全面的反思和调查,围绕三个指导性问题提出:为什么解释性必不可少?它需要什么技术和道德方面?它如何履行其在现实部署中的作用?我们重点介绍了LLM中解 ...
在为人们制定政策,计划或设计时,设计师预见人们可能推理和行为的所有方式,这是一项挑战。最近,大型语言模型(LLM)已被证明能够模拟人类的推理。我们通过测量LLM在Ultimatum Game中模拟战略推理的能力来扩展这项工作,这是一个经典的经济学谈判实验 ...
我们提出了一种新型的方法,用于选择性模型量化,该方法超越了使用熵加权量化(EWQ)的大语言模型(LLM)(EWQ)的大型语言模型(LLMS)的体系结构的局限性。通过分析跨 Transformer 块的熵分布,EWQ确定可以安全量化哪些块而不会导致显着的性能降解,而与模型架构或大小无关。我们的方法的表现优于统一的量化方法,维持0范围内的大量多任务语言理解(MMLU)精度得分 ...
优化大型语言模型(LLMS)的长篇小说推理的主要挑战之一在于键值(KV)缓存的高内存消耗。现有的方法(例如量化)已经证明了减少记忆使用情况的有希望的结果。但是,当前的量化方法不能同时考虑有效性和效率 ...