由于任务的性质高度不足,因此单眼动态重建是一个具有挑战性且长期以来的视力问题。现有方法的限制是因为它们要么取决于模板,因此仅在准静态场景中有效,或者未能明确模拟3D运动。在这项工作中,我们介绍了一种能够重建通用动态场景的方法,该场景由随意捕获的单眼视频带有明确的,完整的3D运动 ...
联合迅速学习已成为一种沟通效率和隐私性的范式,用于调整跨分散客户的大型视觉模型,例如剪辑。但是,此设置的安全性含义仍然没有被置于不足的状态。在这项工作中,我们介绍了联合及时学习中的后门攻击的首次研究 ...
建立在因果视觉语言模型(VLM)的多模式嵌入模型中,在各种任务中都表现出了希望。但是,当前的方法面临三个关键局限性:在VLM骨架中使用因果关注是嵌入任务的次优。依赖高质量标记的配对数据而引起的可伸缩性问题;培训目标和数据的多样性有限。为了解决这些问题,我们提出了MOCA,这是将预训练的VLM转换为有效双向多模式嵌入模型的两阶段框架 ...
推荐系统在帮助用户导航的产品和服务选择方面起着关键作用。在在线平台上,用户有机会以各种模式共享反馈,包括数字评分,文本评论以及喜欢/不喜欢。传统推荐系统依赖用户明确的评分或隐式交互(e ...
深度学习彻底改变了人工智能领域。基于基于深度学习的方法发现的统计相关性,计算机视觉促进了自动驾驶和机器人技术等领域的巨大增长。尽管是深度学习的基础,但这种相关性并不稳定,并且容易受到不受控制的因素的影响 ...
知识追踪是通过学习活动建模学生知识的行为,是计算机辅助教育领域的广泛研究问题。尽管具有注意机制的模型表现优于传统方法,例如贝叶斯知识追踪和协作过滤,但它们具有两个局限性。首先,这些模型依靠浅的注意层,并且随着时间的流逝,练习和反应之间的复杂关系 ...
检索型生成(RAG)系统通常会在不完美的检索中挣扎,因为传统检索员专注于词汇或语义相似性,而不是逻辑相关性。为了解决这个问题,我们提出了Hoprag,这是一种新颖的抹布框架,通过图形结构的知识探索通过逻辑推理来增强检索。在索引期间,Hoprag构造了一个传递图,文本块作为顶点和逻辑连接,通过LLM生成的伪Queries作为边缘建立 ...
在神经解码研究中,最有趣的主题之一是基于fMRI信号的自然图像的重建。先前的研究成功地重新创建了视觉效果的各个方面,例如低级属性(形状,纹理,布局)或高级特征(对象类别,场景的描述性语义),但通常未能将这些属性一起重建这些属性以获得复杂场景图像。 Generative AI最近通过能够产生高复杂性图像的潜扩散模型进行了飞跃 ...