大型视力模型的无监督预训练方法已显示出可以提高下游监督任务的性能。为卫星图像开发类似的技术带来了重要的机会,因为未标记的数据很丰富,并且固有的时间和多光谱结构提供了途径,以进一步改善现有的训练前策略。在本文中,我们提出了Satmae,这是基于蒙版自动编码器(MAE)的时间或多光谱卫星图像的预训练框架 ...
尽管大型语言模型(LLMS)在许多语言任务中都表现出令人印象深刻的性能,但大多数人只能处理数千个 Token 长的文本,从而将其应用程序限制为较长的序列输入,例如书籍,报告和代码库。最近的工作提出了通过扩展上下文窗口和更复杂的内存机制来提高LLMS长上下文功能的方法。但是,缺乏用于评估长篇小说理解的全面基准 ...
世界模型可显着增强层次结构的理解,提高数据整合和学习效率。为了探索遥感(RS)字段中世界模型的潜力,本文提出了用于多模式数据融合(Fusdreamer)的标签有效的遥感世界模型。 Fusdreamer将世界模型用作统一表示容器来抽象的共同和高级知识,从而促进了不同类型的数据的相互作用,\ emph {i ...
专为特定任务或模式而设计的传统生物医学人工智能(AI)模型通常在现实世界部署中表现出有限的灵活性,并努力利用整体信息。通才AI具有解决这些限制的潜力,因为它在解释不同的数据类型和生成定制的输出方面的多功能性来满足各种需求。但是,现有的生物医学通才AI解决方案通常是重量级和封闭的研究人员,从业者和患者 ...
大型语言模型(LLMS)在各种自然语言处理任务中取得了巨大的成功,但它们产生的长格式内容的能力仍然很少了解和评估。我们的分析表明,当前的LLM与长文本生成的长度要求和信息密度斗争,随着文本长度的增加,性能恶化。为了定量定位这种性能降级并提供了对模型开发的进一步见解,我们提出了长寿,这是一种基准,它通过认知和语言写作模型的启发,通过直接和基于计划的生成范式评估长文本生成 ...
本文介绍了一种新的培训策略,以使用最小的声学信息和混响(湿)语音来改善语音解缩系统。大多数现有的算法都依赖于配对的干/湿数据,这些数据很难获得,或者是可能无法充分捕获混响特征并可能导致非目标指标的结果差的目标指标。我们的方法使用有限的声学信息,例如混响时间(RT60)来训练替代系统 ...
在一个不断发现新领域并应用机器学习(ML)的世界中,每天都将新任务自动化,挑战是可以训练ML模型的样本数量。尽管传统的ML培训在很大程度上取决于数据量,但找到一个带有大量可用样本的大数据集并不总是那么容易,而且过程通常需要时间。例如,当一种新的人类传播疾病(例如Covid-19)爆发时,即时诊断有立即激增,然后快速隔离受感染的个体从健康患者中弥补传播,因此有立即需要使用机器学习模型来创建工具/自动 ...
随着2D视觉识别中深度学习的最新成功,基于深度学习的3D点云分析已受到社区的越来越多的关注,尤其是由于自主驾驶技术的快速发展。但是,大多数现有方法直接学习空间域中的点特征,使光谱域中的局部结构较差。在本文中,我们介绍了一种新方法,即PointBovalet,以通过可学习的图形小波变换来探索光谱域中的本地图 ...