薄层细胞学测试 (TCT) 载玻片的自动检查可以帮助病理学家发现宫颈异常,从而进行准确有效的癌症筛查。目前的解决方案大多需要定位可疑细胞,并根据局部斑块对异常进行分类,考虑到 TCT 的整个幻灯片图像非常大。因此,它需要对正常和异常宫颈细胞进行许多注释,以监督补丁级分类器的训练以获得有希望的性能 ...
通过减少训练过程中对强监督的需求,弱监督学习已成为一种引人注目的对象检测工具。然而,主要挑战仍然存在:(1)对象实例的区分可能不明确; (2) 检测器倾向于关注有区别的部分而不是整个物体; (3)如果没有基本事实,目标建议对于高召回率来说必须是冗余的,从而导致大量的内存消耗。应对这些挑战很困难,因为通常需要消除不确定性和琐碎的解决方案 ...
在少数环境中训练的强化学习方法很少能学到泛化到未见过的环境的策略。为了提高泛化能力,我们将强化学习中固有的顺序结构纳入表示学习过程中。这种方法与最近的方法正交,后者很少明确地利用这种结构 ...
学习合作在多智能体环境中至关重要。关键是要了解代理之间的相互影响。然而,多智能体环境是高度动态的,智能体不断移动,而它们的邻居变化很快 ...
我们推出了 Unified-IO 2,这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。为了统一不同的模态,我们将输入和输出(图像、文本、音频、动作、边界框等)标记化到共享语义空间中,然后使用单个编码器-解码器转换器模型对其进行处理 ...
我们提出了针对嵌入式人工智能的预训练视觉表示(PVR)或视觉“基础模型”的最大、最全面的实证研究。首先,我们策划 CortexBench,包含 17 项不同的任务,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个是普遍占主导地位的 ...
人体运动预测的目标是估计未来一段时间内人类的行为,是许多现实应用中的一项基本任务。然而,现有的工作通常集中于预测人体的主要关节,而没有考虑人手的微妙运动。在实际应用中,手势在人类与现实世界的交流中发挥着重要作用,表达了人类的首要意图 ...
我们研究在不同的人类视频数据上预训练的视觉表示如何能够实现下游机器人操作任务的数据高效学习。具体来说,我们使用 Ego4D 人类视频数据集,结合时间对比学习、视频语言对齐和 L1 惩罚来预训练视觉表示,以鼓励稀疏和紧凑的表示。由此产生的表示 R3M 可用作下游策略学习的冻结感知模块 ...