大语言模型(LLM)的推理能力一直是研究的长期重点。最近的工作进一步增强了这些功能,并使用加强学习(RL)增强了这些功能,许多新方法声称通过最少或没有外部监督的大幅改善。令人惊讶的是,一些研究甚至表明随机或不正确的奖励信号可以提高推理性能 ...

0 0 0 0 2025/08/05 arXiv:2507.10532v1 大红豆

当前的停车区感知算法主要集中于在有限范围内检测空置插槽,这依赖于易于错误的标签和推理的均匀同谱投影。但是,高级驾驶员援助系统(ADA)的最新进步需要通过全面且聪明的人机接口(HMIS)与最终用户互动。这些接口应完全感知到从区分空位的进入线到其他停放车辆的方向的停车区 ...

0 0 0 0 2025/08/05 arXiv:2408.12575v2 xubiao

多层次功能融合是计算机视觉中的一个基本话题。它已被利用以在各种尺度上检测,细分和分类对象。当多层次功能符合多模式提示时,最佳特征聚合和多模式学习策略成为热马铃薯 ...

0 0 0 0 2025/08/05 arXiv:2007.02713v3 anny454

AI for Software Engineering最近取得了惊人的进步,在Generative AI中取得了显着的成功。尽管如此,在自动化软件工程具有全部潜力之前,仍然需要解决许多挑战。应该有可能达到高水平的自动化,其中人类可以专注于建造什么以及如何平衡困难的权衡方面的关键决策,而大多数常规发展工作都被自动化 ...

0 0 0 0 2025/08/05 arXiv:2503.22625v1 leec

改善现实世界中的SWE任务(求解GitHub问题)的开源模型面临两个关键挑战:1)执行环境的可扩展策划以训练这些模型,以及2)测试时间计算的最佳缩放。我们介绍了AgentGym,这是最大的程序策划的可执行健身房环境,用于培训现实世界中的SWE-Agent,由超过8.7K的任务组成 ...

0 0 0 0 2025/08/05 arXiv:2504.07164v1 leec

检索增强的一代(RAG)已成为一种有前途的技术,可以增强大语模型产生的响应的质量和相关性。尽管最近的进步主要集中在改善基于文本的查询的抹布上,但尚未完全探索包含文本和图像的多模式文档的抹布。特别是当微调不起作用时 ...

0 0 0 0 2025/08/05 arXiv:2505.18450v1 guoxuter

多模式嵌入模型对于实现各种下游任务,例如语义相似性,信息检索和聚类在不同方式上至关重要。但是,如VLM2VEC,E5-V,GME等现有的多模式嵌入量主要集中在自然图像上,并且对其他视觉形式(例如视频和视觉文档)的支持有限。这限制了它们在现实情况下的适用性,包括AI代理,多模式搜索和建议以及检索增强的一代(RAG) ...

0 0 0 0 2025/08/05 arXiv:2507.04590v1 guoxuter

点云完成的任务旨在预测不完整的3D形状的丢失零件。广泛使用的策略是从不完整的策略中生成完整的点云。但是,点云的无序性质将降低高质量3D形状的生成,因为仅使用潜在代码的生成过程才能捕获离散点的详细拓扑和结构 ...

0 0 0 0 2025/08/05 arXiv:2012.03408v3 liushibo

在这项工作中,我们研究了文本对图像中的文本内部学习(T2-ICL)的问题。尽管近年来统一的多模式LLM(MLLM)迅速发展,但它们在T2I-ICL方案中的上下文推理挣扎。为了解决这一限制,我们提出了一个新颖的框架,该框架在图像生成之前包含了一个称为ImageGen-Cot的思维过程 ...

0 0 0 0 2025/08/05 arXiv:2503.19312v1 syhhh

在本报告中,我们提出了Hunyuan3d 2.5,这是一个旨在产生高保真性和详细质感3D资产的3D扩散模型的稳健套件。 Hunyuan3d 2 ...

0 0 0 0 2025/08/05 arXiv:2506.16504v1 Appropriate_Main56

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)