通过这项研究,我们研究了深度学习模型的准确性,以推断雷诺平均的Navier-Stokes解决方案。我们专注于现代化的U-NET体系结构,并就其计算压力和速度分布的准确性评估了大量训练有素的神经网络。特别是,我们说明了训练数据大小和权重的数量如何影响解决方案的准确性 ...
0 0 0 2025/05/31 arXiv:1810.08217v3 19102382462
大型语言模型(LLMS)在推理方面表现出了显着的能力,例如OpenAI-O1和DeepSeek-R1的成功。但是,将推理与外部搜索过程集成在一起仍然具有挑战性,尤其是对于需要多个检索步骤的复杂多跳问题。我们提出了研究,这是一个新颖的框架,该框架训练LLMS通过强化学习通过搜索进行推理,而无需使用任何有关推理步骤的监督数据 ...
0 0 0 2025/05/31 arXiv:2503.19470v2 cocoyo
最初建立在2D Vision Transformer(VIT)上的任何模型(SAM)的任何模型(SAM)擅长捕获2D自然图像中的全球模式,但与CT和MRI(例如CT和MRI)的3D医学成像方式挣扎。这些方式需要在体积空间中捕获空间信息,以进行器官分割和肿瘤定量。为了应对这一挑战,我们介绍了RefSAM3D,该挑战通过合并3D图像适配器和跨模式参考提示生成来适应SAM进行3D医学成像 ...
0 0 0 2025/05/31 arXiv:2412.05605v1 尼斯湖
我们提出了DiffClip,这是一种新型的视觉语言模型,将差异注意机制扩展到剪辑架构。最初为大型语言模型开发了差异注意力,以放大相关上下文,同时取消嘈杂的信息。在这项工作中,我们将此机制集成到Clip的双编码器(图像和文本)框架中 ...
0 0 0 2025/05/31 arXiv:2503.06626v1 annseongjin
现有的推理细分方法通常使用图像文本对和相应的掩码标签微调多模式大型语言模型(MLLMS)。但是,他们在没有明确推理过程的情况下对分布场景的概括有限。尽管最近的努力通过群体相关政策优化(GRPO)利用强化学习来增强推理能力,但它们通常会遭受过度思考的痛苦 - 不论任务复杂性如何产生统一的冗长推理链 ...
0 0 0 2025/05/31 arXiv:2505.23727v1 yiweima
在本文中,我们专注于条件图像生成的任务,其中图像根据用户说明合成。构成此任务的关键挑战是确保生成的图像的保真度及其在提供条件下的语义一致性。为了解决这个问题,以前的研究采用了从预训练的模型造成的有监督的感知损失 ...
0 0 0 2025/05/31 arXiv:2410.11236v3 smallz
最近,大规模扩散模型在文本到图像(T2i)一代方面取得了令人印象深刻的进步。为了进一步为这些T2I模型配备精细的空间控制,ControlNet之类的方法引入了一个额外的网络,该网络学会遵循条件图像。但是,对于每种条件类型,ControlNet都需要在数百个GPU小时内进行数百万个数据对进行独立的培训,这非常昂贵,并且使普通用户探索和开发新类型的条件变得具有挑战性 ...
0 0 0 2025/05/31 arXiv:2410.09400v2 smallz
最近,使用DeepSeek-R1-Zero-Zero风格的增强学习(RL)在可验证的奖励上转向训练大语言模型(LLM)的范式转变,导致了代码和数学推理的令人印象深刻的进步。但是,这种方法仅限于可能的任务,在该任务中,基于规则的答案验证是可能的,并且自然不会扩展到化学,医疗保健,工程,法律,生物学,商业和经济学等现实领域。当前的实用变速器使用额外的LLM作为基于模型的验证者;但是,这引入了诸如依赖强 ...
0 0 0 2025/05/31 arXiv:2505.21493v1 xujiu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)