最近,在3D资产的重建和产生中已取得了重大进步,包括静态病例和具有物理相互作用的案例。为了恢复3D资产的物理特性,现有方法通常假定所有材料都属于特定的预定义类别(例如, ...
我们介绍了带有8B参数的高级多模式过程奖励模型(PRM)的VisualPrm,它提高了不同模型量表和具有最佳N(BON)评估策略的家族的现有多模式大语言模型(MLLM)的推理能力。具体而言,我们的模型改善了三种类型的MLLM和四种不同模型量表的推理性能。即使应用于高功能的Intervl2 ...
多模式的大语言模型(MLLM)最近在视觉问题回答(VQA)上实现了有希望的零弹性准确性 - 一项影响各种下游应用程序和域的基本任务。考虑到这些模型的广泛使用潜力,重要的是要研究它们在处理不同图像和问题属性方面的局限性。在这项工作中,我们研究了MLLM是否可以感知细节以及图像中的较大组成部分 ...
图形处理单元(GPU)已经超越了其传统的渲染图形用例,如今,还可以成为加速无处不在,非刻板渲染任务的强大平台。一项突出的任务是推理神经网络,这些神经网络会处理大量的个人数据,例如音频,文本或图像。因此,GPU成为处理大量潜在机密数据的组成部分,这唤醒了安全研究人员的兴趣 ...
大型语言模型(LLM)通过\ textit {思考然后响应}范式证明了增强的性能,其中模型在最终响应之前会产生内部思想(又称,系统2思维)。但是,现有的研究缺乏对思维方式如何影响模型大小的性能的系统的系统理解。在这项工作中,我们对各种思维类型对模型性能的影响进行了全面分析,并介绍了ThinkPatterns-21K,这是一个策划的数据集,其中包括从现有的指令遵守数据集中收集的21K指令 - 响应对 ...
高级生成模型在合成图像方面表现出色,但通常依赖于基于文本的调节。但是,视觉设计师通常会超越语言,直接从现有视觉元素中汲取灵感。在许多情况下,这些元素仅代表潜在概念的片段,例如独特的机翼,或者是特定的发型服务,作为艺术家探索如何创造性地融合成一个连贯的整体的灵感 ...
密度功能理论(DFT)是量子化学和材料科学中的关键方法,其核心涉及Kohn-Sham Hamiltonian的构建和解决方案。尽管其重要性,但DFT的应用通常受到建造Kohn-Sham Hamiltonian所需的大量计算资源的限制。为了应对这些局限性,当前的研究采用了深入学习模型来有效预测分子和固体的汉密尔顿人,并在其神经网络中编码了旋转的翻译对称性 ...
大型语言模型(LLMS)具有可以处理与语言相关的多种任务的包含功能。但是,LLMS上的填充将降低这种一般技能,并且持续的填充将进一步导致累积知识的严重降解。最近,出现了大型语言模型(LLM)的持续学习(CL),旨在不断地适应LLM,同时保持先前学习的知识和继承一般技能 ...