本文探讨了对象(左,最右,顶部,底部像素)中极端点的使用,以获取图像和视频的精确对象分割。我们通过在卷积神经网络(CNN)的输入中向图像中添加额外的通道来做到这一点,该通道包含一个以每个极端点为中心的高斯。 CNN学会将这些信息转换为与这些极端要点相匹配的对象的分割 ...
了解关系表中的列的语义是索引数据湖以提供丰富数据搜索的重要预处理步骤。建立这种理解的方法是列类型注释(CTA),其中的目标是用给定词汇中的术语注释表列。本文在实验上比较了基于LLM的列类型注释的不同知识产生和自我注册策略 ...
在利用基础模型(例如大语言模型(LLM))来加速复杂的科学工作流程中,已经取得了重大进步。在这项工作中,我们介绍了Foampilot,这是一种概念验证LLM代理,旨在增强Firefoam的可用性,Firefoam是使用OpenFoam构建的专门用于火灾动力学和抑制火灾模拟的求解器,OpenFoam是一种流行的计算流体动力学开放式开放源工具盒(CFD)。 Foampilot提供了三个核心功能:代码洞 ...
时间序列预测中的不确定性量化由于时间依赖性和对顺序数据的分布变化而具有挑战性。共形推理提供了一种关键和灵活的工具,用于通过预测集评估机器学习模型的不确定性。最近,一系列在线共形推理方法通过在一系列分位数损耗函数上执行在线梯度下降来更新预测集的阈值 ...
这项工作介绍了ILIAS,这是一个新的测试数据集,用于实例级图像进行大规模检索。它旨在评估当前和未来的基础模型和检索技术识别特定对象的能力。对现有数据集的关键好处包括大规模,域多样性,准确的地面真相以及远离饱和的性能 ...
视频基础模型在网络升级和模型扩展的帮助下取得了重大进步。但是,由于发电质量不满意,它们仍然很难满足应用的要求。为了解决这个问题,我们建议从本文的培训后的角度将视频基础模型与人类的偏好相结合 ...
当人类四处走动,执行日常任务时,他们能够回忆起将物体放在环境中的位置,即使这些物体目前不在视线之外。在本文中,我们旨在模仿这种空间认知能力。因此,我们制定了看不见的任务,而不是脑海-3D使用通过以自我为中心的相机捕获的观测值跟踪活动对象 ...
时间动作提案的生成旨在估计未修剪视频中动作的时间间隔,这在视频理解领域中是一项具有挑战性但重要的任务。由于缺乏有效的时间建模和有效的边界环境利用率,目前方法产生的建议仍然遭受用于检索的时间边界和较低置信度。在本文中,我们提出了时间上下文聚合网络(TCANET),以通过“本地和全局”的时间上下文聚合和互补以及渐进的边界改进来生成高质量的行动建议 ...