Mel-Filterbank是固定的,工程设计的音频功能,这些功能模仿了人类的感知,并已通过到当今的音频理解历史上使用。但是,他们的不可否认的品质与手工表示的基本限制相抵消。在这项工作中,我们表明我们可以训练一个可学习的前端,该前端在广泛的音频信号上胜过Mel-Filterbanks,包括语音,音乐,音频事件和动物声音,为音频分类提供了通用的学习前端 ...
这项工作解决了十亿级最近的邻居搜索的问题。十亿个数据库的最新检索系统目前基于倒数多数指数,即最近提出的倒置索引结构的概括。多指数提供了特征空间的非常细粒度的分区,该分区允许为搜索查询提取简洁明了的候选人 ...
索引是模型:可以将B-Tree索引视为模型,以映射出排序阵列中记录位置的键,Hash-Index作为模型,将记录键映射到未分类数组中的记录位置,以及一个模型作为模型,以指示数据记录是否存在。在这篇探索性研究论文中,我们从这个前提开始,并认为所有现有的索引结构都可以用其他类型的模型(包括深度学习模型)代替,我们认为这些模型学到了索引。关键思想是模型可以学习查找键的排序顺序或结构,并使用此信号有效预测 ...
近年来,机器人主义者通过利用高容量 Transformer 网络架构和生成扩散模型来解决灵巧机器人硬件的越来越一般任务取得了显着的进步。不幸的是,将这两个正交改进结合起来已被证明是令人惊讶的,因为没有明确且妥善理解的过程来做出重要的设计选择。在本文中,我们确定,研究和改善了高容量扩散 Transformer 政策的关键建筑设计决策 ...
数据Shapley提供了一个原则上的框架,用于将数据贡献归因于机器学习环境。但是,现有的方法需要对不同数据子集进行重新训练模型,这在计算密集型集中取消了其对大规模模型的应用。此外,它们为通过运行学习算法产生的任何模型产生相同的归因分数,这意味着他们无法对从算法的单个运行中获得的特定模型执行有针对性的归因 ...
在本文中,我们提出了一种新颖的视频超分辨率方法,旨在从低分辨率(LR)中生成高保真高分辨率(HR)视频。先前的方法主要利用时间邻居框架来帮助当前帧的超分辨率。这些方法的性能有限,因为它们遭受了空间框架对齐方式的挑战,并且缺乏类似LR邻居框架的有用信息 ...
从医疗保健到自动驾驶汽车,人工智能(AI)正在迅速整合到各个领域的关键系统中。尽管它的整合带来了巨大的好处,但它也引入了重大风险,包括滥用AI的风险。在管理这些风险的论述中,通常使用“ AI安全”和“ AI安全性”一词,有时会互换,从而导致概念上的困惑 ...
我们提出XMEM,这是一种由Atkinson-Shiffrin内存模型启发的统一功能存储器存储的长视频的视频对象分割体系结构。视频对象分割的先前工作通常仅使用一种类型的功能内存。对于超过一分钟的视频,单个功能内存模型紧密地链接了内存消耗和准确性 ...