基于文本的人搜索(TBP)是一个在研究社区中引起了重大兴趣的问题。任务是根据文本描述检索特定个人的一个或多个图像。任务的多模式性质需要学习表示,在共享潜在空间内桥接文本和图像数据 ...
政策评估中不确定性的存在显着使现实环境中的政策排名和选择过程变得复杂。我们正式将离线政策选择视为鉴于固定的体验数据集的一组政策前景的学习偏好。尽管人们可以根据其策略价值或高信心间隔的点估计来选择或对策略进行排名,但对策略价值的信念,访问完整的分布可以使更灵活的选择算法在更广泛的下游评估指标下 ...
当前的行人属性识别(PAR)算法是基于多标签或多任务学习框架开发的,旨在使用特定的分类头来区分属性。但是,这些歧视模型很容易受到数据不平衡或嘈杂样本的影响。受生成模型成功的启发,我们重新考虑了行人属性识别方案,并认为生成模型可以在人类属性之间的建模依赖性和复杂性方面更好地表现 ...
现代推荐系统旨在通过过去的互动深入了解用户的复杂偏好。尽管使用图形神经网络(GNN)在捕获用户项目关系方面采用了深层协作过滤方法,但在处理稀疏数据或零摄像方案时,其有效性受到限制,这主要是由于基于ID的嵌入功能的限制。为了应对这些挑战,我们提出了一个模型不足的建议指令调节范式,该范式将大型语言模型与协作过滤无缝整合 ...
大规模数据集的计算负担和固有的冗余性挑战了当代机器学习模型的培训。数据修剪通过选择较小的,信息丰富的子集来提供解决方案,但现有的方法挣扎:基于密度的方法可能是任务不合时宜的,而基于模型的技术可能会引入冗余或证明计算性的效率。我们介绍了自适应删除(Adadedup),这是一种新型混合框架,以集群自适应方式协同将基于密度的修剪与模型信息反馈相结合 ...
尽管现有的统一模型在视觉理解和文本到图像生成方面表现出色,但他们的模型在探索图像感知和操纵任务方面受到限制,这些任务迫切需要广泛的应用程序。最近,OpenAI发布了其强大的GPT-4O图像模型,以实现全面的图像感知和操纵,实现表达能力并吸引社区利益。通过观察我们精心构造的实验中GPT-4O图像的性能,我们推断出语义编码器而不是VAE提取的GPT-4O图像杠杆功能,而VAE在许多图像操作模型中被认为 ...
从大语言模型(LLM)中提取句子嵌入是一个有希望的方向,因为LLMS表现出更强的语义理解能力。先前的研究通常集中于迅速工程,以通过促使模型将句子信息编码到最后一个 Token 的嵌入中,从而引起LLM的句子嵌入。但是,LLMS主要是仅解码的模型,并具有因果关注,并且句子中的较早 Token 不能遵循后者的 Token ,从而导致句子信息的偏见,并对最终解码的 Token 产生了层叠的效果 ...
有关参数效率转移学习(PETL)的最新著作表明,只有少数可学习的参数将预训练的视觉 Transformer 调整为下游识别任务的潜力。但是,由于它们通常将新结构插入预先训练的模型中,因此该模型的整个中间特征都会更改,因此需要存储以参与反向传播,从而导致内存重训练。我们从新颖的视角解决了这个问题,即 ...