尽管弱监督的对象检测(WSOD)是朝着强大的实例级注释迈出的有希望的一步,但其功能仅限于单个培训数据集中的封闭设置类别。在本文中,我们提出了一个新型的弱监督的开放式摄物检测框架,即WSOVOD,以扩展传统的WSOD来检测新颖的概念,并仅使用图像级注释来利用各种数据集。为了实现这一目标,我们探讨了三种重要策略,包括数据集级特征适应,图像级显着对象定位和区域级视觉语言对齐 ...
在过去的十年中,在视觉对象跟踪中取得了重大进展,这主要是由于大型数据集的可用性。但是,这些数据集主要集中在露天场景上,并在很大程度上忽略了水下动物跟踪,尤其是伪装的海洋动物带来的复杂挑战。为了弥合这一差距,我们提出了第一个大规模的多模式水下伪装对象跟踪数据集,即UW-COT220 ...
时间序列通常表示为数值序列,也可以转换为图像和文本,提供同一基础信号的多模式视图(MMV)。这些MMV可以揭示互补模式,并能够使用强大的预训练的大型模型,例如大视觉模型(LVM),以预测(LTSF)。但是,正如我们在这项工作中确定的那样,将LVM应用于LTSF对“预测期”带来了感应偏见 ...
大型语言模型(LLMS)的快速发展已通过集成诸如搜索引擎和Web浏览器之类的工具来改变了代理信息寻求功能的景观。但是,当前启用LLM Web搜索能力的当前主流方法面临着重大挑战:在开放式搜索域中与数据生产进行的微调斗争,而RL迅速收敛,从而限制了他们的数据利用效率。为了解决这些问题,我们提出了Evolvesearch,这是一种新型的迭代自我进化框架,结合了SFT和RL,以增强代理Web搜索功能,而无需任何外部人类宣传的推理数据 ...
轻巧时间序列预测模型的最新进展表明,时间序列预测任务的固有简单性。在本文中,我们提出了CMO,这是一个超级轻量级的时间序列预测模型。 CMO直接建模不同时间序列块之间的空间相关性,而不是学习形状的嵌入 ...
近年来,腿部机器人技术通过铰接式机器人臂的整合来增强这些机器人的能力的兴趣越来越大。但是,实现成功的机车操作,尤其是涉及与重物相互作用的成功机车操作远非直接,因为物体操纵可以引入实质性干扰,从而影响机器人的运动。本文提出了一个新的框架,用于腿部机车操作,该框架通过基于层次优化的控制框架来考虑全身协调 ...
在各种和挑战性的场景中评估大型语言模型(LLM)对于与人类偏好保持一致至关重要。为了减轻与人类评估相关的高昂成本,利用强大的LLM作为法官成为一种受欢迎的方法。然而,这种方法遇到了一些挑战,包括大量费用,对隐私和安全性以及可重复性的担忧 ...
学习高质量的多模式实体表示是多模式知识图(MMKG)表示学习的重要目标,它可以增强MMKG中的推理任务,例如MMKG完成(MMKGC)。主要的挑战是合作地对隐藏在大量三元组和实体的多模式特征中的结构信息进行合作建模。现有的方法着眼于制定优雅实体的多模式融合策略,但它们忽略了在各种关系环境下隐藏在模式中的多观点特征的利用 ...
我们考虑了一个联合信息提取(IE)模型,该模型在整个文档上共同求解了指定的实体识别,核心分辨率和关系提取。特别是,我们研究了基于无监督实体链接的这种IE模型中从知识库(KB)注入信息。从(i)超链接的文本文档(Wikipedia)或(ii)知识图(Wikidata)中学到了使用的KB实体表示形式,并且在提高IE性能方面似乎是互补的 ...
最近,分割任何东西已迈出了一般人工智能的重要一步。同时,其可靠性和公平性也引起了人们的极大关注,尤其是在医疗保健领域。在这项研究中,我们提出了多盒提示,引发了SAM提示的不确定性估计,以证明分段病变或组织的可靠性 ...