我们介绍了昏迷,这是一种针对端到端文档转换的超紧凑型视觉模型。我们的模型通过生成Doctags来全面地处理整个页面,这是一种新的通用标记格式,可捕获其完整上下文中的所有页面元素,并使用位置。与依赖大型基础模型或依赖多个专业模型的手工管道的集合解决方案的现有方法不同,Smoldocling提供了一种端到端转换,以准确捕获256m参数参数视觉模型中文档元素的内容,结构和空间位置 ...
无监督的异常检测(UAD)从图像努力对正常数据分布进行建模,从而创建歧视性表示,以区分和精确定位异常。尽管最近有效,统一的一对一方案的进步,但挑战仍在准确细分异常以进行进一步监测。此外,在UAD设置不平衡的UAD设置下,广泛使用的AUROC度量掩盖了这个问题 ...
大型语言模型(LLM)可以通过简单的提示处理各种一般任务,而无需特定于任务的培训。基于LLM的多模式大语言模型(MLLM)在解决涉及视觉,听觉和文本数据的复杂任务方面具有令人印象深刻的潜力。但是,与真实性,安全性,类似O1的推理以及与人类偏好的一致性有关的关键问题仍未得到充分解决 ...
图像条件的生成方法(例如深度和巧妙的条件方法)表现出显着的精确图像合成能力。但是,现有模型仍然难以准确控制多个实例(或区域)的内容。即使是磁通量和3DIS等最新模型也面临着挑战,例如实例之间的属性泄漏,这限制了用户控制 ...
内部文化学习(ICL)可以显着增强大语言模型(LLMS)的复杂推理能力,其中关键在于选择和顺序示例示例。以前的方法通常依赖于简单特征来测量示例之间的相关性。我们认为这些特征不足以反映示例之间的固有连接 ...
剪辑嵌入在广泛的多模式应用中表现出了出色的性能。但是,这些高维密度的矢量表示不容易解释,从而限制了我们对夹子丰富结构及其在需要透明度的下游应用中的使用。在这项工作中,我们表明,可以利用夹子潜在空间的语义结构来提供解释性,从而使表示形式分解为语义概念 ...
增强大语言模型的推理能力仍然是人工智能的关键挑战。我们介绍了Rdolt,《逻辑思想提示的递归分解》,这是一个新颖的框架,可显着提高LLM推理性能。 RDolt建立在三个关键创新上:(1)将复杂的推理任务递归地分解为渐进复杂性的子任务; (2)采用高级选择和评分机制来确定最有前途的推理思想; (3)整合一个知识传播模块,该模块通过跟踪强烈和弱小的信息传播来模仿人类的学习 ...
我们提供了一个数据集,该数据集用于固定翼无人机(UAV)的控制表面中,用于故障检测和隔离(FDI)和异常检测(AD)研究。目前,数据集包括47次自动驾驶飞行的处理数据,其中23个突然的完整发动机故障场景和24个其他七种突然控制表面(执行器)故障的方案,在正常情况下,总共有66分钟的飞行和13分钟的福利后飞行时间。此外,它还包括许多小时的原始数据,这些数据具有全自动,自动驾驶辅助和手动飞行,并具有数 ...