我们报告了一项直接数字模拟研究,该研究对剪切雷诺数的Quasi-Keplerian制度中的Taylor-Couette流量最高为$ \ MATHCAL {O}(10^5)$。数十年来,已研究了准胜地旋转流,作为一种简化的模型系统,以研究未完全了解的吸积盘中湍流的起源。这项研究的流量是轴向周期性的,因此避免了实验末端壁对流动稳定性的影响 ...
推理模型的测试时间扩展的最新趋势(例如Openai O1,DeepSeek R1)导致人们普遍认为,使用“ wait”或“让我重新思考”等提示来扩展思维痕迹可以提高性能 ...
我们提出了DITFLOF,这是一种将参考视频运动转移到新合成的方法的方法,该方法是专门为扩散 Transformer (DIT)设计的。我们首先使用预先训练的DIT处理参考视频,以分析跨框架注意图,并提取称为注意运动流(AMF)的斑块运动信号。我们通过通过AMF损失优化潜在的潜在,以基于优化的无训练方式指导潜在的denoising过程,以生成引用运动运动的运动的视频 ...
文档图像增强(DIE)是文档AI系统中的关键组件,其性能基本决定了下游任务的有效性。为了解决局限于单一降低恢复或灰度图像处理的现有方法的局限性,我们使用局部参数生成增强网络(GL-PGENET)呈现全球,这是一种新型体系结构,设计用于多衰减的彩色文档图像,确保在现实世界中的效率和鲁棒性。我们的解决方案结合了三个关键创新:首先,是一个分层增强框架,将全球外观校正与本地改进相结合,从而可以改进粗到精细 ...
随着大型语言模型(LLM)的不断发展,确保他们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是\ textIt {工具融合},其中AI系统在优化给定的目标时,开发出意想不到的中间目标,覆盖了最终目标并偏离人类意义的目标。这个问题在强化学习(RL)培训的模型中尤其重要,该模型可以产生创造性但意外的策略以最大程度地提高奖励 ...
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding
大型视觉模型(LVLMS)已大大提高,从而相互交织的视觉识别和语言理解,以生成不仅相干而且在上下文上的内容。尽管它们成功了,但LVLM仍然遭受了对象幻觉问题的困扰,在该问题中,模型产生了可行的,但不正确的输出,其中包括图像中不存在的对象。为了减轻此问题,我们引入了视觉对比度解码(VCD),这是一种简单且无训练的方法,它与来自原始和扭曲的视觉输入得出的输出分布对比 ...
我们提出了GO-N3RDET,这是一种场景几何优化的多视图3D对象检测器,可通过神经辐射场增强。精确3D对象检测的关键是有效体素表示。但是,由于阻塞和缺乏3D信息,从多视图2D图像中构建3D功能是具有挑战性的 ...
3D AI生成的内容(AIGC)是一个充满激情的领域,它显着加速了游戏,电影和设计中的3D模型。尽管开发了几种彻底改变3D代的开创性模型,但由于收集,处理和培训3D模型所涉及的复杂性,该领域仍然可以在研究人员,开发人员和设计师方面取得很大的访问。为了应对这些挑战,我们介绍了Hunyuan3d 2 ...