在许多应用中,破译人类的行为以预测其未来的道路/轨迹及其从视频中所做的事情很重要。受这个想法的促进,本文研究了与未来活动共同预测行人的未来道路。我们提出了一个端到端的多任务学习系统,利用有关人类行为信息的丰富视觉特征以及与周围环境的互动 ...
非理论推动将目标移动并重新定向对象是一种多功能机车操作技能。在现实世界中,对象的物理特性和地板的摩擦包含重大的不确定性,这使得任务对移动操纵器有挑战。在本文中,我们为移动操纵器开发了一个基于学习的控制器,以通过一系列推动操作将未知对象移动到所需的位置和偏航方向 ...
对观察时间的准确预测对于增强在视频推荐系统中的用户参与度至关重要。为了实现这一目标,观察时间预测框架应满足四个属性:首先,尽管具有连续的价值,但观察时间也是一个序数变量,其值之间的相对排序反映了用户偏好的差异。因此,应在观察时间预测中反映序关系 ...
基于文本的提示学习方法主要以级联的方式使用多个可学习的软提示和硬类 Token 作为文本输入,旨在使下游任务对齐图像和文本(类别)空间。但是,当前的培训仅限于将图像与预定义的类别对齐,并且不能与未知类别相关联。在这项工作中,我们建议利用通用属性作为增强图像和未知类别之间对齐的桥梁 ...
预测知识图谱(KG)中的多个链接的任务是知识图谱分析领域的一个挑战,由于自然语言处理(NLP)和知识图谱嵌入技术的进步,这一挑战越来越容易解决。本文介绍了一种新颖的方法,即知识图大语言模型框架(KG-LLM),该框架利用关键的 NLP 范式,包括思想链(CoT)提示和上下文学习(ICL)来增强多跳KG 中的链接预测。通过将 KG 转换为 CoT 提示,我们的框架旨在辨别和学习实体的潜在表示及其相互 ...
目前,我们正处于技术复杂性和深刻的社会转变的时代,在该时代,人工智能(AI)技术以大语言模型(LLM)为例,已经重新激发了有关“技术奇异性”的讨论。 “技术奇异性”是一种哲学概念,指的是AI能力超过人类的能力时发生的不可逆转和深刻的转变。但是,对AI技术的历史演变和未来趋势的定量建模和分析仍然很少,无法充分证实奇异性假设 ...
Synergizing Implicit and Explicit User Interests: A Multi-Embedding Retrieval Framework at Pinterest
工业推荐系统通常由多个阶段组成,包括检索,排名和混合。检索阶段在产生一组涵盖各种不同用户兴趣的候选项目中起着至关重要的作用。在此阶段,有效涵盖多样化和长尾用户的兴趣提出了一个重大挑战:在这方面,传统的两位塔模型由于用户项目功能互动有限而在这方面遇到了巨大的挑战,并且通常对顶级用例有偏见 ...
通常观察到声音回声损害了声源定位(SSL)方法的性能。我们介绍了用回声(Mirage)介绍麦克风阵列增强的概念,并展示了早期 - 回声特征的估计实际上如何使SSL受益。我们提出了一种基于学习的方案,用于回声估计以及基于物理的回声集合方案 ...