基于大规模预处理基础模型(PFM)的生成人工智能(AI)系统,例如视觉语言模型,大语言模型(LLMS),扩散模型和视觉模型(VLA)模型,已经证明了在各种领域和上下文中求解复杂且真正的非琐事AI问题的能力。尤其是多模式的大语言模型(MLLM)从广泛而多样化的数据源中学习,允许世界上富裕和细微的表现形式,从而提供广泛的功能,包括推理能力,参与有意义的对话;与人类和其他代理商合作,共同解决复杂的问题; ...
最近的研究试图完善 Transformer 体系结构,以证明其在长期时间序列预测(LTSF)任务中的有效性。尽管超越了许多线性预测模型,但我们仍然对变形金刚作为LTSF的解决方案持怀疑态度。我们将这些模型的有效性归因于所采用的斑块机制,该机制在一定程度上增强了序列局部性,但未能完全解决置入不变的自我注意机制固有的时间信息的丢失 ...
参数有效的微调(PEFT)已成为一种流行的解决方案,用于将预训练的视觉 Transformer (VIT)模型适应下游应用。尽管当前的PEFT方法已经达到了参数效率,但它们忽略了微调和推断期间计算和GPU内存的效率,但没有实际要求。在本文中,我们提出了\ textbf {稀疏调整},这是一种新颖的PEFT方法,可以说明图像和视频中的信息冗余,以提高上述效率 ...
我们介绍了从点云进行表面重建的传统和基于学习的方法的全面调查和基准。由于噪声,异常值,不均匀抽样和缺失数据等因素,这项任务对于实际获取而言尤其具有挑战性。传统方法通常通过在输入点云或结果表面上施加手工制作的先验来简化问题,该过程可能需要乏味的高参数调整 ...
在各种NLP任务中,检索式的大型语言模型(LLMS)非常胜任。但是,以前的作品观察到,检索并不总是有帮助的,尤其是当LLM已经在查询回答的查询中知识渊博时。仅在LLM中缺少查询的知识时,就以此为动机,自适应检索效果生成(ARAG)研究 ...
从其原始的离散点云观察中重建二维流形的连续表面是一个长期存在的问题。这个问题在技术上是不适的,并且考虑到通过实用深度扫描获得的点云中出现各种感应缺陷,因此变得更加困难。在文献中,已经提出了丰富的方法,还提供了现有方法的综述 ...
视频生成的任务需要综合视觉现实和时间连贯的视频帧。现有方法主要使用异步自动回归模型或同步扩散模型来应对这一挑战。然而,异步自动回归模型通常会遭受训练和推理之间的不一致,导致诸如误差累积的问题,而同步扩散模型受到对刚性序列长度的依赖的限制 ...
语言模型的链条响应可改善大多数基准的性能。但是,目前尚不清楚这些绩效增长在多大程度上可以归因于类似人类的任务分解或仅仅是其他 Token 允许的更大计算。我们表明,变形金刚可以使用毫无意义的填充 Token (e ...