尽管在许多自然语言任务中取得了成功,但解决数学问题对于大型语言模型(llm)来说仍然是一个重大挑战。llm在解决数学问题时的一次通过和多次通过的表现之间存在很大差距,llm可能接近找到正确的解决方案,从而激励我们探索微调方法以释放llm的表现。使用具有挑战性的数学数据集,我们研究了三种微调策略:我们研究了三种微调策略:(:(:1)解决方案微调 ...
尽管许多作品着重于图像中的3D重建,但在本文中,我们重点介绍了各种3D输入的3D形状重建和完成,这些输入在某些方面不足:低分辨率和高分辨率体素,稀疏和致密点云,完整或不完整。这样的3D输入的处理是一个越来越重要的问题,因为它们是3D扫描仪的输出,它们变得越来越易于访问,并且是3D计算机视觉算法的中间输出。最近,学到的隐式功能在产生连续重建时表现出了巨大的希望 ...
三角网格在3D应用中起着至关重要的作用,以进行有效的操作和渲染。尽管自动回归方法通过预测离散的顶点 Token 会产生结构化的网格,但它们通常受到有限的面部计数和网格不完整的限制。为了应对这些挑战,我们提出了DeepMesh,该框架通过两个关键创新来优化网格的生成:(1)一种有效的预训练策略,结合了新型的 Token 化算法,以及数据策划和处理的改进,以及(2)将增强型学习(RL)纳入3D网格的生 ...
在本文中,我们提出了\ textbf {unicode},这是一种多模式大语言模型(MLLMS)领域内的一种新方法,该方法学习了一个统一的代码簿,以有效地将视觉,文本和潜在类型的信号添加。这项创新解决了现有MLLM中的一个关键限制:它们对仅文本代码簿的依赖,这限制了MLLM在多模式上下文中生成图像和文本的能力。为此,我们提出了一种语言驱动的迭代训练范式,再加上一个中文预训练的任务,我们称其为``图 ...
视觉推理能力在理解复杂的多模式数据,推进特定领域的应用和人工通用智能(AGI)方面起着至关重要的作用。现有方法通过精心注释的训练数据来增强视觉推理能力,通过经过思考链(COT)监督的微调来改善VLM推理。但是,这种训练范式可能会导致过度拟合和认知僵化,从而限制了模型跨域转移视觉推理技能并限制其现实世界中的适用性的能力 ...
保护文本和代码等文本的知识产权(IP)越来越重要,尤其是随着复杂的攻击的可能性,例如通过大语言模型(LLM)释义,甚至是在受版权保护的文本上对LLM的未经授权培训以侵犯此类IP。但是,现有的文本水印方法在此类攻击方面不够强大,也不适用于数百万用户进行实际实施。在本文中,我们提出了瀑布,这是第一个适用于多种文本类型的可靠和可扩展文本标记的无训练框架(e ...
GUI 长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。 LLM ,特别是多模式模型的出现,开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成和视觉处理方面表现出了卓越的能力 ...
源代码的预训练的生成语言模型(例如PLBART,CODET5,SPT-CODE)在过去几年中对多个任务(包括代码生成和翻译)产生了强大的结果 ...