本文提出了一种自我监督的方法,可以从视频中学习普遍的面部表征,该方法可以跨越各种面部分析任务,例如面部属性识别(FAR),面部表情识别(FER),深膜检测(DFD)和唇部同步(LS)。我们提出的名为Marlin的框架是一个面部视频遮罩的自动编码器,它可以从丰富可用的无通道的网络爬行的面部视频中学习高度健壮和通用的面部嵌入。作为一项具有挑战性的辅助任务,Marlin从密集的面部面部区域重建了面部的时 ...
随着大型语言模型(LLM)越来越多地集成到车辆导航系统中,了解其路径规划能力至关重要。我们通过各种环境和各种困难测试了三个现实世界中的路径规划方案。我们的实验表明,在所有情况下,所有LLM都犯了许多错误,表明它们是不可靠的路径计划者 ...
高度规模应用中对内存的需求不断增长,导致内存成为整体数据中心支出的很大一部分。像CXL这样的相干接口的出现可实现主内存的扩展,并为此问题提供了有效的解决方案。在这样的系统中,主内存可以构成具有不同特征的不同内存技术 ...
专家(MOE)的混合是通过利用稀疏专家激活,优化性能和效率之间的权衡取舍来扩展大语言模型的有效体系结构。但是,在专家并行性的情况下,由于 Token 到专家的分配不平衡,MOE遭受了推理效率低下的症状,其中一些专家被超载,而另一些专家仍然不足。这种不平衡导致资源利用率不佳和潜伏期的增加,因为最负担的专家决定了总体延迟,这是我们将这种现象定义为\ textbf {\ textit {straggle ...
Experts(MOE)的混合物已被证明是扩展模型的有效方法。通过动态和稀疏选择激活的专家,MOE可以有效地降低计算成本。尽管取得了成功,但我们观察到MOE模型中的许多 Token 都不确定 ...
在代码生成的背景下,已经证明了经过思考链(COT)推理是提高大语言模型(LLMS)的问题解决能力的有效技术。但是,现有的COT方法通常表现出“过度思考”的趋势,在该法学学士始终如一地应用推理策略而没有充分考虑任务的基本复杂性。这导致LLMS从 Token 中分配过多的计算资源,以相对简单的任务或已经明显的答案的问题 ...
视觉语音识别(VSR)位于计算机视觉和语音识别的交集,旨在解释视觉提示的口头内容。在VSR中,一个显着的挑战是同酚 - 视觉相似的唇部手势,代表不同的音素。先前的方法试图通过对齐视觉和听觉语义来区分细颗粒的观众,但通常没有完全同步 ...
在湍流中找到气味源的问题对于关键应用程序(例如环境监测和灾难响应)至关重要。我们通过基于贝叶斯推论设计算法来应对这一挑战,该算法使用静态传感器集合的气味测量值通过环境的随机模型来估算源位置。由于缺乏准确的分析和现象学建模,因此问题很困难,因为湍流运输的多尺度和超平衡性能,从而阻止了贝叶斯方法的保证收敛 ...