通常观察到声音回声损害了声源定位(SSL)方法的性能。我们介绍了用回声(Mirage)介绍麦克风阵列增强的概念,并展示了早期 - 回声特征的估计实际上如何使SSL受益。我们提出了一种基于学习的方案,用于回声估计以及基于物理的回声集合方案 ...
这项研究的主要目的是解决在普遍的大型语言模型(例如Chatgpt)医学知识中观察到的局限性,通过创建具有增强医疗建议准确性的专业语言模型。我们通过使用广泛使用的在线医疗咨询平台采购的100,000个患者doctor对话的大型数据集适应和完善大语言模型元AI(LLAMA)来实现这一目标。这些对话被清理和匿名,以尊重隐私问题 ...
最近,已证明增强学习(RL)可极大地增强大语言模型(LLMS)的推理能力,并且基于RL的方法已逐渐应用于视觉多模式任务。但是,在这些发展中,音频方式在很大程度上被忽略了。因此,我们在音频理解和推理方面进行了一系列RL探索,特别关注音频问题答案(AQA)任务 ...
在本文中,我们提出了一种估计声学反射器(例如,使用自我噪声)的邻近性的方法 ...
无人和聪明的农业系统对于提高农业效率和帮助减轻劳动力短缺的影响至关重要。但是,与城市环境不同,农业领域对自主机器人系统构成了独特而独特的挑战,例如环境的非结构化和动态性质,粗糙和不平坦的地形以及由此产生的非平滑机器人运动。为了应对这些挑战,这项工作介绍了适用于在复杂的农业环境中运行的自主农业移动机器人量身定制的自适应激光镜和映射框架 ...
我们提出GLM-4.1V思维,这是一种旨在推进通用多种模束推理的视觉模型(VLM)。 In this report, we share our key findings in the development of the reasoning-centric training framework. ...
在过去的几年中,多模式大型语言模型(MLLM)模型在视频理解方面取得了重大进展。但是,由于高内存和计算成本,处理长期视频输入仍然是一个重大挑战。这使得当前模型很难在长期的视频理解中达到强大的性能和高效率 ...
基于Spike的 Transformer 为基于传统的人工神经网络(ANN)的 Transformer 提供了一种引人注目的节能替代品,通过稀疏的二元计算实现了令人印象深刻的结果。但是,现有的基于尖峰的 Transformer 主要集中在空间注意力上,同时忽略了基于尖峰的处理中固有的关键时间依赖性,从而导致次优特征表示和有限的性能。为了解决这一局限性,我们提出了以时空的关注(Statten)提出的尖峰 Transformer ,这是一种简单明了的结构,可有效地将空间和时间信息整合到自我注意的机制中 ...
多模式实体链接(MEL)是一项旨在将多模式环境中提及与知识库中相应实体联系起来的任务,由于近年来其广泛的应用,引起了很多关注。但是,现有的MEL方法通常依靠提及单词作为检索提示,这限制了其有效利用图像和文本信息的能力。这种依赖使梅尔在某些情况下与准确检索实体斗争,尤其是当焦点放在图像对象或文本中缺少单词时 ...
尽管它们在许多领域取得了成功,但基础模型建模和理解人类行为的潜力仍然在很大程度上尚未探索。我们介绍了此HTTP URL,这是为人类行为建模设计的第一个开放基础模型之一。该HTTP URL建立在开源大型语言模型上,并在各种行为数据上进行了微调,可用于理解和预测人类的决策 ...