向量量化(VQ)是一种通过离散代码书表示确定性地学习功能的技术。它通常是通过变异自动编码模型VQ-VAE进行的,可以进一步扩展到用于进行高保真重建的层次结构。但是,VQ-VAE的这种层次扩展通常会遇到代码手册/层崩溃问题,在该问题中,代码手册没有有效地用于表达数据,因此降低了重建精度 ...
本文解决了从新闻文章中自动从多种语言中提取属性的挑战。最近的神经网络模型在从半结构化网页中提取信息方面表现出很高的功效。但是,这些模型主要应用于电子商务等领域,并使用英语数据进行了预培训,从而使其在其他语言中的网页应用程序变得复杂 ...
HTML文档是在人类消费中传播信息的重要媒介。 HTML文档以多种文本格式提供信息,包括非结构化文本,结构化键值对和表。这些文档的有效表示对于机器的理解是必不可少的,以便能够广泛的应用程序,例如问答,网络搜索和个性化 ...
鉴于其固有的非线性和动态性质,短期负载预测在电力系统的有效操作和计划中至关重要。深度学习的最新进展已显示出解决这一挑战的希望。但是,这些方法通常会努力应对超参数灵敏度,可解释性的不透明性以及用于实时部署的高计算开销 ...
在现实世界中,多样性的性质需要神经网络模型从封闭的类别设置扩展,以适应新的新兴类别。在本文中,我们研究了开放式摄制对象检测(OVD),该对象检测促进了仅在基本注释和开放式摄影知识的监督下对新对象类别的检测。但是,我们发现,在对齐过程中,区域之间邻近关系的不足不可避免地会限制最近基于蒸馏的OVD策略的性能 ...
在本文中,我们提出了Lir-Livo,这是一种轻巧且强大的激光惯性 - 视觉探视系统,旨在挑战照明和退化环境。所提出的方法利用基于深度学习的照明弹性特征和激光惯性 - 视觉探测器(Livo)。通过合并高级技术,例如通过深度与LIDAR点云相关联的特征的均匀深度分布,并利用SuperPoint和LightGlue匹配自适应功能,Lir-Livo可以以低计算成本实现先进的(SOTA)精度(SOTA)精 ...
基于查询的模型在3D对象检测任务中广泛使用,并且可以在线提供广泛的预训练检查点。但是,尽管它们很受欢迎,但这些模型通常需要过多的对象查询,远远超过了要检测到的对象数量。冗余查询导致不必要的计算和内存成本 ...
具有密度特征的基于查询的方法在3D对象检测任务中表现出了很大的成功。但是,这些模型的计算需求,尤其是具有较大的图像大小和多个 Transformer 层,对在边缘设备上有效运行构成了重大挑战。现有的修剪和蒸馏方法需要重新培训,或者是为VIT模型设计的,而VIT模型很难迁移到3D检测器 ...