我们介绍了电影QA数据集,该数据集旨在评估视频和文本的自动故事理解。该数据集包含14,944个有关408部具有高语义多样性的电影的问题。问题范围从更简单的“谁”做“什么”到“谁”,到“为什么”和“如何发生” ...
0 0 0 2025/03/18 arXiv:1512.02902v2 rxyy
运动预测是自动驾驶系统的关键组成部分,可以生成准确,平稳的未来轨迹,以确保安全到达目的地。在以前的方法中,在编码阶段通常没有潜在的未来轨迹,这可能会导致次优结果。此外,先前的方法通常采用 Transformer 体系结构进行轨迹和地图信息的时空建模,这些建模遭受了 Transformer 体系结构的二次缩放复杂性 ...
0 0 0 2025/03/18 arXiv:2503.06565v1 zsh231264
几乎没有射击和零声文本分类旨在识别具有有限标签样品或根本没有标记样品的新型类别的样本。尽管流行的方法通过将知识从可见的类转移到看不见的类表现出了有希望的表现,但它们仍然受(1)类之间的固有差异限制,这使得从可见的类中学到的特征转换为难以看不见的类,既困难又效率低下。 (2)稀有标记的新型样品通常无法提供足够的监督信号,使该模型可以从源分布到目标分布,尤其是对于复杂的情况 ...
0 0 0 2025/03/18 arXiv:2405.03565v1 wld
文本到图像生成的最新进展主要依赖于广泛的数据集和参数重型架构。这些要求严重限制了缺乏大量计算资源的研究人员和从业人员的可访问性。在本文中,我们介绍了\模型,这是一种使用知识蒸馏(KD)和直接偏好优化(DPO)的图像生成模型的有效训练范式 ...
0 0 0 2025/03/18 arXiv:2503.08619v1 Phyki
本文介绍了DITCLIPV2,这是一个有效且可扩展的训练框架,其中包含大规模的图像文本对,以实现开放式摄制对象检测(OVD)。与以前的OVD框架不同,通常依赖于预训练的视觉模型(例如, ...
0 0 0 2025/03/18 arXiv:2304.04514v1 18804024672
自主驾驶的进展也是由于基础机器学习方法的大量培训数据的可用性增加所致。通常已知机器学习系统缺乏鲁棒性,例如 ...
0 0 0 2025/03/18 arXiv:1902.09184v2 zhanguanglun
协作过滤通常会遇到稀疏和冷启动问题,因此,研究人员和工程师通常会使用侧面信息来解决这些问题并改善推荐系统的性能。在本文中,我们将知识图视为侧面信息的来源。我们提出了MKR,这是一种用于知识图增强建议的多任务特征学习方法 ...
0 0 0 2025/03/18 arXiv:1901.08907v1 18072321722
通用义推理的视觉模型(VLM)的最新进展导致了视觉语言动作(VLA)模型的发展,从而使机器人能够执行一般的操纵。尽管现有的自回归VLA方法利用了大规模的知识,但它们破坏了行动的连续性。同时,某些VLA方法包含了一个额外的扩散头,以预测连续的动作,仅依赖于VLM提取的特征,从而限制了其推理能力 ...
0 0 0 2025/03/18 arXiv:2503.10631v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)