从视频中学习可转移和域的自适应特征表示对于视频识别等诸如视频识别的任务很重要。现有的视频域适应方法主要依赖于从RGB图像空间得出的对抗特征对齐。但是,视频数据通常与多模式信息相关联,e ...
被证明可以有效地将知识纳入大语言模型(LLMS)。但是,传统的抹布努力捕获知识部分之间的复杂关系,从而将其表现限制在复杂的推理中,这需要从多个来源整合知识。最近,图形增强检索增强生成(GraphRag)构建了图结构,以明确对这些关系进行建模,从而实现了更有效和有效的检索器 ...
为建议提供系统生成的解释是朝着透明且值得信赖的推荐系统迈出的重要一步。可解释的推荐系统为其产出提供了可理解的基本原理。在过去的二十年中,可解释的建议吸引了推荐系统研究社区的广泛关注 ...
本文介绍了在大语言模型(LLM)中应用信号处理的想法。随着生成AI的最新爆炸,我们的工作可以帮助将两个领域桥接在一起,即信号处理和大型语言模型的领域。我们在LLM的每个中间激活信号的经典傅立叶变换和类似傅立叶变换的可学习时频表示之间绘制平行线 ...
像Web数据一样,在庞大的数据集上学习的图表表示已取得了长足的进步。但是,相关的计算和存储开销引起了人们的关注。考虑到这一点,已经引入了图形凝结(GCOND),以将这些大型真实数据集提炼成更简洁但信息丰富的合成图 ...
作为面部识别的一个新兴主题,设计基于保证金的损失功能可以增加不同类别之间的特征范围,以增强可区分性。最近,采用了基于采矿的策略来强调错误分类的样本,从而取得了令人鼓舞的结果。但是,在整个培训过程中,先前的方法要么根据样本的重要性明确强调样本,从而使硬样品无法完全利用。或明确强调半硬样品的影响,即使在早期训练阶段也可能导致收敛问题 ...
我们研究了几个领域概括(DG)设置中学习算法的基本性能局限性。以先前提出的方法可靠地优于经验风险最小化(ERM)的难度,我们在ERM的多余风险方面得出了上限,以及最小值多余的风险。我们的发现表明,在我们考虑的所有DG设置中,不可能显着胜过ERM ...
人类交流是一个复杂而多样的过程,不仅涉及多种因素,例如语言,常识和文化背景,而且还需要参与多模式信息,例如语音。大型语言模型(LLM)的多代理系统在模拟人类社会方面表现出了有希望的表现。我们可以利用基于LLM的多代理系统模拟人类的沟通吗?但是,当前基于LLM的多代理系统主要依赖文本作为主要媒介 ...