有机地推理文本和图像的能力是人类智力的支柱,但是多模式大语言模型(MLLMS)执行此类多模式推理的能力仍然不足。现有的基准通常强调文本主导推理或依靠浅视觉提示,无法充分评估综合的视觉和文本推理。我们介绍了Emma(增强的多模式推理),这是针对数学,物理,化学和编码的有机多模式推理的基准测试 ...
长期生成对于广泛的实用应用至关重要,通常归类为短期和漫长的一代。尽管短期几代人受到了广泛的关注,但从极长的资源中产生长文本仍然相对不受欢迎。远程一代的主要挑战在于有效地整合和分析广泛投入的相关信息,这对于当前的大型语言模型(LLMS)仍然很难 ...
可以从当前标准定义的网络设备的标准化界面中提取的关键性能指标(KPI)构成了可以利用的主要数据源,该数据源可以利用在非标准化的新设备,架构和计算工具的开发中。在下一代技术中,对数据的需求已经超出了现有许可网络监控工具提供的传统日志生成或导出功能。现在,越来越需要以特定的时间间隔和定义的粒度收集此类数据 ...
数学方程式在描述各种科学学科的复杂自然现象方面是不合理地有效的。但是,由于需要导航极大的组合假设空间,因此从数据中发现这种有见地的方程式提出了重大挑战。当前的方程发现方法(通常称为符号回归技术)在很大程度上专注于仅从数据中提取方程,通常会忽略科学家通常依赖的特定领域的先验知识 ...
知识追踪(KT)是一种至关重要的技术,可以通过观察他们的历史学习过程来预测学生的未来表现。由于深层神经网络具有强大的表示能力,通过使用深度学习技术解决KT问题,已经取得了显着的进步。大多数现有方法都依赖于\ emph {同质问题}假设,即如果问题共享相同的知识组成部分,则它们具有等效的贡献 ...
以 GPT-4V 为代表的多模态基础模型为低级视觉感知和理解任务带来了新的范式,可以响应模型中广泛的自然人类指令。虽然现有的基础模型在低级视觉任务上显示出了令人兴奋的潜力,但它们的相关能力仍处于初步阶段,需要改进。为了增强这些模型,我们进行了大规模的主观实验,收集了大量真实的人类对低级视觉的反馈 ...
语音质量评估通常需要评估来自多个方面的音频,例如平均意见评分(MOS)和说话者的相似性(SIM)\等,这对于使用一个为单个任务设计的小型模型覆盖可能具有挑战性。在本文中,我们建议利用最近引入听觉大语言模型(LLMS)进行自动语音质量评估 ...
文本文档通常在层次图结构中连接,其中中央文档链接到具有指数增长的连接性的其他文档。尽管双曲线图神经网络(HGNN)在捕获此类层次结构方面表现出色,但它们无法在文档中建模丰富的文本语义。此外,文档中的文本内容通常讨论不同特异性的主题 ...