受DeepSeek-R1成功的启发,我们探讨了基于规则的强化学习(RL)在MLLM训练后进行感知政策学习的潜力。在有希望的同时,我们的最初实验表明,通过RL合并思维过程并不能始终导致所有视觉感知任务的性能提高。这导致我们在视觉感知的背景下深入研究RL的重要作用 ...
0 0 0 2025/04/15 arXiv:2504.07954v1 zzshneuq
本文介绍了一种新模型,以生成短视频推荐的浏览过程,并通过用户参与反馈(SCAM)提出了一种新颖的细分内容知识模型,以在视频推荐中观看时间预测。与依靠多模式特征以了解视频内容理解的现有方法不同,骗局通过用户的历史观看行为隐式地对视频内容进行建模,从而在没有复杂的多模态数据的情况下实现了细分级别的理解。通过根据持续时间将视频分为段并采用类似 Transformer 的结构,骗局捕获了段之间的顺序依赖性 ...
0 0 0 2025/04/15 arXiv:2504.08771v1 11085284
通过自主定位和识别感兴趣的对象,对象检测在计算机视野领域起着至关重要的作用。您只看一次(YOLO)模型是一个有效的单杆检测器。但是,Yolo在混乱或部分遮挡的场景中面临挑战,并且可能与小型低对比度的物体斗争 ...
0 0 0 2025/04/15 arXiv:2407.21652v2 青云
股票市场在全球经济中起着重要作用,在全球经济中,准确的股票价格预测可以带来大量财务回报。尽管现有的基于 Transformer 的模型超过了长期的短期内存网络和财务时间序列预测中的卷积神经网络,但它们的高计算复杂性和内存需求限制了其实用性实用性和长期序列数据处理。为了应对这些挑战,我们提出了Samba,这是一个创新的股票回报预测框架,该预测建立在Mamba Architecture上,并集成了图形 ...
0 0 0 2025/04/15 arXiv:2410.03707v2 pdssunny
边界表示(B-REP)是3D计算机辅助设计/制造(CAD/CAM)和工业设计的行业标准,因为它们忠于表示风格细节。但是,在3D风格的研究中,它们被忽略了。现有的3D样式指标通常在网格或PointClouds上运行,并且无法通过采用固定的样式定义来考虑最终用户的主观性,这是通过众包样式标签或手工制作的功能来考虑的 ...
0 0 0 2025/04/15 arXiv:2105.02961v3 DamnMan
大规模加强学习(RL)方法已被证明在增强大语言模型(LLM)的推理能力方面非常有效,尤其是对于具有可验证解决方案(例如数学和编码)的任务。但是,将此想法应用于机器翻译(MT),其中输出的格式灵活并且难以自动使用明确的规则自动评估,但仍未得到充实。在这项工作中,我们介绍了MT-R1-Zero,这是MT R1-Zero RL框架的第一个开源改编,而无需监督微调或冷启动 ...
0 0 0 2025/04/15 arXiv:2504.10160v1 NeverSettle
视觉条件语言模型(vlm)在视觉对话、场景理解和机器人任务规划等应用中得到越来越多的采用;的采用催生了 llava,tendentblip和pali-3等大量新模型。尽管新版本数量众多,但围绕图像预处理、架构和优化的关键设计决策尚未得到充分探索,这使得了解影响模型性能的因素变得充满挑战,而由于缺乏客观、一致的评估 ...
0 0 0 2025/04/15 arXiv:2402.07865v2 zhangjiaqi
功能磁共振图像(fMRI)通常用于研究人脑活动,因为它可以深入了解功能波动与人类行为之间的关系。为了增强大脑活动的分析和理解,图形神经网络(GNN)已被广泛应用于fMRI数据中得出的功能连接性分析(FC),因为它们能够捕获大脑区域之间的协同相互作用。但是,在人脑中,执行复杂任务通常涉及某些途径的激活,这可以表示为跨图的路径 ...
0 0 0 2025/04/15 arXiv:2412.17404v2 xixiaixixi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)