多模式模型(MLLM)的最新进步证明了在理解和生成文本图像内容方面的显着功能。但是,它们在专业领域的有效性尤其是那些需要资源有效和特定域的适应性的效果仍然有限。在这项工作中,引入了一种轻巧的多模式模型,该模型被引入了,专门适用于分析僻静地区的遥感图像,包括具有挑战性的导弹发射场 ...
0 0 0 2025/05/27 arXiv:2505.07984v1 dm616703
遥感应用程序通常在Edge硬件上运行,该应用程序无法托管当今的7B参数多模式模型。本文介绍了Tinyrs,这是针对遥感任务优化的第一个2B参数多模式的小型语言模型(MSLM),以及其推理增强的变体Tinyrs-R1。基于QWEN2-VL-2B,TINYRS通过四阶段管道进行了培训:对百万卫星图像进行预训练,在视觉指导示例上调整教学示例,对拟议的推理数据集的经过思考(COT)注释进行微调,并通过小组 ...
0 0 0 2025/05/27 arXiv:2505.12099v1 dm616703
传统的在线工业广告系统遭受了多级级联体系结构的局限性,这些架构通常会过早地丢弃高潜力的候选人,并在断开的模块中分发决策逻辑。尽管最近的生成推荐方法提供了端到端的解决方案,但它们无法解决现实部署的关键组件的关键广告要求,例如显式竞标,创意选择,AD分配和付款计算。为了弥合这一差距,我们介绍了端到端生成广告(EGA),这是对用户兴趣,利益点(POI)和创意生成,AD分配和付款优化的第一个统一框架 .. ...
0 0 4 2025/05/27 arXiv:2505.17549v2 findtech
该技术报告介绍了Qwenlong-CPR,这是一种旨在显式长篇文本优化的上下文压缩框架,在预填充阶段期间针对高度的计算开销,以及在长序列处理中大型语言模型(LLMS)的“中间”性能退化。 Qwenlong-CPR通过新颖的动态上下文优化机制实施,可实现以自然语言指导为指导的多界面上下文,从而实现了效率的提高和提高的性能。 Qwenlong-CPR从QWEN Architecture系列演变而来,引 ...
0 0 0 2025/05/27 arXiv:2505.18092v1 lrklnyk
增强学习(RL)已成为培训推理模型的有效方法。但是,现有的RL方法通常会使模型的输出分布偏向奖励最大化路径,而无需引入外部知识。与基本模型相比,这限制了他们的勘探能力,并导致推理能力边界更窄 ...
0 0 0 2025/05/27 arXiv:2505.15692v2 chrisxiong
现有的现实世界图像脱掩的方法主要尝试微调预训练的模型或调整其推理程序,从而在很大程度上依赖于预先训练的模型和相关的培训数据。此外,在密集的雾期下恢复严重扭曲的信息需要生成的扩散模型,由于其漫长的采样过程,其潜在的去悬空的潜力部分仍未得到充分利用。为了解决这些局限性,我们引入了一条新颖的危险管道,该管道由现实的朦胧图像生成框架(Hazegen)和基于扩散的Dhazing框架(Diffdehaze)组 ...
0 0 0 2025/05/27 arXiv:2503.19262v1 jiajia233
3D字幕旨在描述自然语言中3D场景的内容,由于点云的固有稀疏性和现有方法中的跨模式对准较弱,因此仍然具有高度挑战性。为了应对这些挑战,我们提出了3D可口可乐,这是一个新颖的统一框架,无缝将对比的视觉学习与单个体系结构中的3D字幕产生相结合。我们的方法利用冷冻的剪贴视觉语言主链提供丰富的语义先验,一种空间意识的3D场景编码器来捕获几何环境,以及多模式解码器以生成描述性字幕 ...
0 0 0 2025/05/27 arXiv:2504.09518v1 hx5563
大型语言模型(LLM)在复杂的推理任务上表现出色,但在计算上保持昂贵,从而限制了其实际部署。为了解决这个问题,最近的作品集中在使用教师LLMS的Theark(COT)痕迹将推理能力提炼成较小的语言模型(SLM)。但是,这种方法在需要罕见的事实知识或精确计算的情况下挣扎,在这种情况下,由于能力有限,SLM经常会幻觉 ...
0 0 0 2025/05/27 arXiv:2505.17612v1 chrisxiong

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)