由于其二次复杂性,大多数基于 Transformer 的视频编码器仅限于简短的时间上下文。尽管已经进行了各种尝试来扩展这种情况,但这通常是以概念和计算复杂性为代价的。我们建议将现有的预训练的视频 Transformer 重新填充,只是简单地将其细化以遵守过去激活中非参数衍生的记忆 ...
0 0 0 2025/09/23 arXiv:2402.05861v2 aaaa1
将传感和嵌入式处理结合的边缘视觉系统承诺将放弃对云的依赖的低延迟和节能解决方案。与传统的基于框架的视觉传感器相反,基于事件的相机提供了微秒尺度的时间分辨率,并具有稀疏的信息编码,从而概述了Edge Vision Systems的新机会。但是,主要依赖卷积神经网络(CNN)的基于框架视觉的主流算法几乎无法利用基于事件的视力的优势,因为它们通常用于密集的矩阵矢量乘法 ...
0 0 0 2025/09/23 arXiv:2404.19489v2 jane88
我们提出FlowRL:通过流量平衡匹配完整的奖励分布,而不是在大语言模型(LLM)增强学习(RL)中最大化奖励。最近的高级推理模型采用了奖励最大化方法(\ eg,PPO和GRPO),这些方法倾向于过度优势占主导地位的奖励信号,同时忽略了较不频繁但有效的推理路径,从而减少了多样性。相比之下,我们使用可学习的分区函数将标量奖励转换为归一化的目标分布,然后最大程度地减少策略和目标分布之间的反向KL差异  ...
0 0 0 2025/09/23 arXiv:2509.15207v1 fqf
多模式的大语言模型(MLLM)在整体上了解视频方面表现出了很强的表现,但是它们处理流视频视频的能力被视为一系列视觉事件捕获序列,却没有被驱动。直观地,利用过去的事件作为内存可以丰富对当前事件的上下文和时间的理解。在本文中,我们表明,将记忆作为上下文有助于MLLM更好地理解视频事件 ...
0 0 0 2025/09/23 arXiv:2502.15457v1 aaaa1
我们介绍节奏(以人类流动性为层次的时间 Token 化推理),该框架将大型语言模型(LLMS)作为时空预测指标和轨迹推理器。节奏分区将轨迹轨迹分为每日段,并以分层的关注为离散 Token ,捕获每日和每周依赖性,同时大大降低了序列长度。 Token 表示通过冷冻LLM富含预计的及时嵌入,从而增强了模型捕获相互依存关系的能力而无需大量的计算开销 ...
0 0 0 2025/09/23 arXiv:2507.14017v1 haoyb22
交通信号控制(TSC)是城市流动性的核心挑战,实时决策必须平衡效率和安全性。现有的方法 - 从基于规则的启发式方法到加强学习(RL) - 常常努力概括为复杂,动态和关键性的临界场景。我们介绍了VLMLIGHT,这是一个新颖的TSC框架,将视觉语言元控制与双分支推理集成在一起 ...
0 0 0 2025/09/23 arXiv:2505.19486v1 haoyb22
时空轨迹数据对于各种应用至关重要。但是,诸如设备故障和网络不稳定性之类的问题通常会引起稀疏的轨迹,从而导致详细的运动信息失去。因此,在稀疏轨迹中恢复缺失点以恢复详细信息至关重要 ...
0 0 0 2025/09/23 arXiv:2410.14281v2 haoyb22
K2-think是一个推理系统,它通过32B参数模型实现最新性能,匹配或超过了更大的模型,例如GPT-Oss 120B和DeepSeek v3.1。建在Qwen2上 ...
0 0 0 2025/09/23 arXiv:2509.07604v3 leec

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)