多模式情绪识别利用跨模式的互补信息来获得性能。但是,我们不能保证在实践中始终存在所有模式的数据。在预测跨模态数据的研究中,异质方式之间的固有差异,即模态差距,提出了挑战 ...
On the generalization of language models from in-context learning and finetuning: a controlled study
大型语言模型表现出令人兴奋的功能,但可以表现出较狭窄的限制,从而表现出较窄的概括。例如 ...
大型语言模型(LLMS)的令人印象深刻的功能以部署期间的大量计算资源为代价。尽管KV缓存可以在推理过程中显着减少重新计算,但它也引入了其他内存开销。 KV缓存量化提出了一个有希望的解决方案,在内存使用和准确性之间达到了良好的平衡 ...
现有的室内大满贯数据集主要集中于机器人传感,通常缺乏建筑体系结构。为了解决此差距,我们设计并构建了第一个数据集,以搭配SLAM和BIM,名为Slabim。该数据集提供了面向BIM和猛击的传感器数据,既可以对HKUST的大学建筑进行建模 ...
使用激光扫描仪(所谓的LiDAR SLAM)对环境的稳健定位和映射对于许多机器人应用至关重要。早期的3D激光雷达大满贯方法通常利用IMU或GNSS传感器的其他信息,以提高定位精度和减轻漂移。后来,高级系统以更高的运行时和复杂性的成本进一步改善了估计 ...
大型语言模型(LLM)通常在需要精确,可验证的计算的数学推理任务上挣扎。尽管从基于结果的奖励获得的加强学习(RL)增强了基于文本的推理,但了解代理如何自主学习利用诸如代码执行(例如代码执行)仍然至关重要。我们研究了基于结果的奖励的RL,以用于工具集成推理,Zerotir,培训基础LLMS,以自发生成和执行Python代码,以解决数学问题,而无需监督的工具使用示例 ...
Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly
(vau),旨在自动理解视频中的异常现象,从而实现交通监控和工业制造等各种应用。虽然现有的vau基准主要集中在异常检测和定位上,但我们的重点是更多的实用性,这促使我们提出以下关键问题:“ 发生了什么异常?”,“ 为什么会发生?”以及“这种异常有多严重”这种异常有多严重“ 事件?”。为了寻求这些答案,我们提出了视频异常因果关系理解,(cuva)的综合基准... ...
在计算机视觉中,很少有射击学习(FSL)是一个重要且主题的问题,它激发了对从复杂的元学习方法到简单转移学习基线的多种方法进行广泛研究。我们试图推动简单但有效的管道的限制,以进行更现实和实用的图像分类。为此,我们从神经网络体系结构的角度探索了很少的学习学习,以及在不同的数据供应下的三阶段网络更新管道,其中考虑了无监督的外部数据用于预培训,基本类别用于模拟元训练的少量任务,以及用于征用小说任务的元数据 ...