我们提出CCI3.0-HQ(此HTTPS URL),这是中国语料库Internet 3.0的高质量500GB子集(CCI3 ...
0 0 0 2025/07/24 arXiv:2410.18505v2 lianzhepku
广角镜头在VR技术中显示出吸引力的应用,但它将严重的径向失真引入其捕获的图像中。为了恢复现实的场景,以前的作品致力于纠正广角图像的内容。但是,这种纠正解决方案不可避免地会扭曲图像边界,从而改变了相关的几何分布并误导了当前的视觉感知模型 ...
0 0 0 2025/07/24 arXiv:2301.01661v2 Yange
我们推出 VLMEvalKit:一个用于评估基于 PyTorch 的大型多模态模型的开源工具包。该工具包旨在为研究人员和开发人员提供一个用户友好且全面的框架,以评估现有的多模态模型并发布可重复的评估结果。在 VLMEvalKit 中,我们实现了 70 多个不同的大型多模态模型,包括专有 API 和开源模型,以及 20 多个不同的多模态基准 ...
0 0 0 2025/07/24 arXiv:2407.11691v3 anan
我们报告了我们最近在制定通才机器人政策方面的进展,即GR-3的发展。 GR-3是大规模视觉语言动作(VLA)模型。它展示了概括涉及抽象概念的新颖对象,环境和说明的特殊功能 ...
0 0 0 2025/07/24 arXiv:2507.15493v2 odenkkk
在混合现实应用中,空间环境中的现实声学体验与实现真正沉浸的视觉体验至关重要。尽管在室内脉冲响应(RIR)估计的神经方法中最近取得了进步,但大多数现有方法仅限于受过训练的单个环境,缺乏推广到具有不同几何形状和表面材料的新房间的能力。我们旨在开发一个能够重建任何环境的空间声体验的统一模型,并使用最低额外的测量 ...
0 0 0 2025/07/24 arXiv:2504.10746v2 wenwen
小型语言模型(SLM)难以学习复杂的推理行为,尤其是在稀缺或难以学习的高质量痕迹时。标准培训方法结合了监督的微调(SFT)阶段,通常是为了提取更大模型的功能,然后进行增强学习(RL)阶段,例如小组相对政策优化(GRPO)。在本文中,我们研究了这种SFT + RL范式的基本局限性,并提出了克服它们的方法 ...
0 0 0 2025/07/24 arXiv:2506.17211v1 harry128
文本到SQL使用户可以使用自然语言与数据库进行交互,从而简化信息的检索和综合。尽管大型语言模型(LLMS)在将自然语言问题转化为SQL查询方面取得了显着的成功,但由于两个主要挑战,广泛的部署仍然有限。首先,有效使用文本到SQL模型取决于用户对模型功能的理解 - 模型可以正确回答的问题的范围 ...
0 0 0 2025/07/24 arXiv:2403.15879v6 qzw
我们解决了从单个图像中生成3D头发几何形状的任务,这是由于发型的多样性和缺乏配对的图像到3D头发数据而具有挑战性的。先前的方法主要是在合成数据上训练的,并通过使用低维中间表示(例如指导链和头皮级嵌入)来应对有限量的数据,这些嵌入需要后处理才能解释,upsample和添加现实主义。这些方法无法重建详细的头发,与卷发挣扎,或者仅限于处理几种发型 ...
0 0 0 2025/07/24 arXiv:2505.06166v1 rcc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)