我们介绍了慢速速度 -  llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)家族,提供有效的解决方案,以进行长篇视频理解 ...
0 0 0 2025/05/20 arXiv:2503.18943v2 sunjiaheng
这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...
0 0 0 2025/05/20 arXiv:2501.04001v2 chengwenxuan7
多变量时间序列中的异常检测具有挑战性,因为可能发生异质的次序异常。基于重建的方法的重点是学习频域中的正常模式以检测不同的异常子序列,但仍取得了令人鼓舞的结果,同时仍然缺乏捕获细粒频率特征和通道相关性的缺点。为了应对限制,我们介绍了基于频率修补的框架 ...
0 0 0 2025/05/20 arXiv:2410.12261v4 skylor
我们提出了一种新颖的对齐方式,以解决基于2D图像或文本产生一般3D形状的挑战性任务。直接学习从图像或文本到3D形状的条件生成模型,很容易与条件产生不一致的结果,因为3D形状具有额外的尺寸,其分布与2D图像和文本的分布明显不同。为了弥合三种模式之间的域间隙并促进了多模式条件的3D形状生成,我们探索代表形状图像 - 文本对齐的空间中的3D形状 ...
0 0 0 2025/05/20 arXiv:2306.17115v2 19303025040
我们介绍了MMAR,这是一种新的基准测试,旨在评估大规模多学科任务中音频模型(ALM)的深层推理能力。 MMAR包括1,000个精心策划的音频问题 - 招标三重态,这些三重态从现实世界的互联网视频中收集,并通过迭代错误校正和质量检查进行了完善,以确保高质量。与限于声音,音乐或语音的特定领域的现有基准不同,MMAR将它们扩展到广泛的现实音频场景,包括声音,音乐和语音的混合模式组合 ...
0 0 0 2025/05/20 arXiv:2505.13032v1 啦啦不是一棵菠菜
引用视频对象细分(RVO)依赖于自然语言表达式来分割视频剪辑中的对象。现有方法将推理限制在独立的短片段,失去全球环境或离线处理整个视频,以流媒体方式损害其应用程序。在这项工作中,我们旨在超越这些局限性并设计一种能够在类似流的场景中有效运行的RVOS方法,同时保留过去框架的上下文信息 ...
0 0 0 2025/05/20 arXiv:2411.17646v2 Eason
直接飞行时间(DTOF)传感器对于下一代内部设备3D传感有希望。但是,由于紧凑模块中的制造能力限制,DTOF数据具有低空间分辨率(例如, ...
0 0 0 2025/05/20 arXiv:2211.08658v2 15528091895
我们提出了较松散的对照,以允许基于扩散的图像生成的广义深度调节。 ControlNet是深度条件图像生成的SOTA,产生了出色的结果,但依赖于获得详细的深度图进行指导。在许多情况下,创建如此精确的深度图是具有挑战性的 ...
0 0 0 2025/05/20 arXiv:2312.03079v1 wonglliam

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)