尽管人类可以灵活地利用交互式的视觉认知来解决复杂的问题解决方案,从而使大型视觉模型(LVLMS)使用视觉工具学习类似的适应性行为仍然很具有挑战性。一个重大障碍是目前缺乏标准化的基础架构,这阻碍了整合多种工具,生成丰富的交互数据和有效培训稳定的代理。为了解决这些差距,我们介绍了OpenthInkimg,这是第一个开源,全面的端到端端到端框架,用于工具增强的LVLM ...
0 0 0 2025/05/27 arXiv:2505.08617v1 Curry123
我们提出了一项新任务,以基于对体现代理的理解理解:在3D场景(SQA3D)中回答的位置问题。给定场景上下文(例如 ...
0 0 0 2025/05/27 arXiv:2210.07474v5 w929
基于查询的多相机3D对象检测的最新进展是通过在3D空间中初始化对象查询的特征,然后从透视视图图像中对功能进行采样以执行多轮查询细化。在这样的框架中,同一相机射线附近的查询点可能会从非常近的像素中采样类似的功能,从而产生模棱两可的查询功能和降解的检测准确性。为此,我们介绍了RayFormer,这是一种基于相机启发的查询3D对象检测器,该对象检测器将对象查询的初始化和特征提取与摄像机的光学特性相一致  ...
0 0 0 2025/05/27 arXiv:2407.14923v4 xubiao
多模式模型(MLLM)的最新进步证明了在理解和生成文本图像内容方面的显着功能。但是,它们在专业领域的有效性尤其是那些需要资源有效和特定域的适应性的效果仍然有限。在这项工作中,引入了一种轻巧的多模式模型,该模型被引入了,专门适用于分析僻静地区的遥感图像,包括具有挑战性的导弹发射场 ...
0 0 0 2025/05/27 arXiv:2505.07984v1 dm616703
遥感应用程序通常在Edge硬件上运行,该应用程序无法托管当今的7B参数多模式模型。本文介绍了Tinyrs,这是针对遥感任务优化的第一个2B参数多模式的小型语言模型(MSLM),以及其推理增强的变体Tinyrs-R1。基于QWEN2-VL-2B,TINYRS通过四阶段管道进行了培训:对百万卫星图像进行预训练,在视觉指导示例上调整教学示例,对拟议的推理数据集的经过思考(COT)注释进行微调,并通过小组 ...
0 0 0 2025/05/27 arXiv:2505.12099v1 dm616703
传统的在线工业广告系统遭受了多级级联体系结构的局限性,这些架构通常会过早地丢弃高潜力的候选人,并在断开的模块中分发决策逻辑。尽管最近的生成推荐方法提供了端到端的解决方案,但它们无法解决现实部署的关键组件的关键广告要求,例如显式竞标,创意选择,AD分配和付款计算。为了弥合这一差距,我们介绍了端到端生成广告(EGA),这是对用户兴趣,利益点(POI)和创意生成,AD分配和付款优化的第一个统一框架 .. ...
0 0 4 2025/05/27 arXiv:2505.17549v2 findtech
该技术报告介绍了Qwenlong-CPR,这是一种旨在显式长篇文本优化的上下文压缩框架,在预填充阶段期间针对高度的计算开销,以及在长序列处理中大型语言模型(LLMS)的“中间”性能退化。 Qwenlong-CPR通过新颖的动态上下文优化机制实施,可实现以自然语言指导为指导的多界面上下文,从而实现了效率的提高和提高的性能。 Qwenlong-CPR从QWEN Architecture系列演变而来,引 ...
0 0 0 2025/05/27 arXiv:2505.18092v1 lrklnyk
增强学习(RL)已成为培训推理模型的有效方法。但是,现有的RL方法通常会使模型的输出分布偏向奖励最大化路径,而无需引入外部知识。与基本模型相比,这限制了他们的勘探能力,并导致推理能力边界更窄 ...
0 0 0 2025/05/27 arXiv:2505.15692v2 chrisxiong

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)