3D对象检测是一项重要但苛刻的任务,在很大程度上依赖很难获得3D注释。为了减少所需的监督量,我们提出了3Dioumatch,这是一种适用于适用于室内和室外场景的3D对象检测的新型半监督方法。我们利用教师的共同学习框架来传播以伪标签形式的标签到未标记的火车的信息 ...
0 0 0 2025/05/26 arXiv:2012.04355v3 18801130956
面向任务的握把(tog)是指预测可以启用后续操作任务的对象上的grasps的问题。为了建模对象,任务和grasps之间的复杂关系,现有方法将语义知识纳入了tog管道中。但是,现有的语义知识通常是基于封闭世界概念集构建的,从而限制了对预定义集合的新颖概念的概括 ...
0 0 0 2025/05/26 arXiv:2307.13204v3 18801130956
我们介绍了Raft-STEREO,这是一种基于光流网络筏的整流立体声的新深度体系结构。我们引入了多级卷积GRU,该卷积更有效地在整个图像中传播信息。修改后的Raft-STEREO可以执行准确的实时推理 ...
0 0 0 2025/05/26 arXiv:2109.07547v1 15528091895
半监督实例分割(SSIS)涉及使用有限的标记数据将图像像素分类为不同的对象实例。这种学习范式通常面临着由实例类别和像素口罩的嘈杂伪标签引起的不稳定性能的重大挑战。我们发现,过滤实例伪标签的普遍做法,以单个分数阈值评估班级和面具质量,经常导致班级和蒙版标签质量之间的权衡取舍 ...
0 0 0 2025/05/26 arXiv:2505.11075v1 oyefish
观看时间是视频推荐系统中用户满意度的重要指标。但是,人们将观察时间作为目标变量的预测通常受到其高度不平衡的分布的阻碍,而对较大的目标值的观察很少,并且对小值的过度人口增多。最先进的观察时间预测模型将连续的观看时间离散为一组存储桶,以考虑观察时间的分布 ...
0 0 0 2025/05/26 arXiv:2401.07521v1 atomcao
从互联网视频中学习潜在运动对于建造通才机器人至关重要。但是,现有的离散潜在作用方法遭受信息损失和复杂且细粒度动态的斗争。我们提出了COMO,旨在从各种互联网规模的视频中学习更多内容丰富的连续运动表示 ...
0 0 0 2025/05/26 arXiv:2505.17006v1 Langston
图形欺诈检测(GFD)通过识别恶意欺诈者在保护在线服务方面已迅速进步。最近有监督的GFD研究强调,欺诈者和用户之间的异性联系可能会极大地影响检测性能,因为欺诈者倾向于通过与良性用户建立更多联系来伪装自己。尽管有希望的监督GFD方法表现出色,但对标签的依赖仍将其应用程序限制为无监督的情况。此外,准确捕获没有标签的复杂和多样的异质模式带来了进一步的挑战 ...
0 0 0 2025/05/26 arXiv:2502.13308v3 hjx9004
注意操作员可以说是 Transformer 体系结构的关键区别因素,这些因素已经在各种任务上证明了最先进的性能。但是, Transformer 注意运营商通常会施加重大的计算负担,而计算复杂性随着 Token 数量的数量二次缩放。在这项工作中,我们提出了一个新颖的 Transformer 注意操作员,其计算复杂性与 Token 数量线性缩放 ...
0 0 0 2025/05/26 arXiv:2412.17810v1 ttwt

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)