多语言大语言模型(LLM)的快速发展凸显了需要高质量,多样化和清洁多语言数据集的需求。在本文中,我们介绍了DCAD-2000(数据清洁作为异常检测),这是一种使用新提取的常见爬网数据和现有多语言数据集构建的大规模多语种语料库。 DCAD-2000包括2,282多种语言,46 ...
我们审查了一类可根据名称非线性转换编码(NTC)收集的方法,在过去的几年中,这些方法已与图像的最佳线性变换编解码器竞争,并以速率(在既定的感知质量质量指标(例如MS-SSIM))(如MS-SSIM)的速率绩效取代了它们。我们评估了经验率 - 借助于简单的示例来源,NTC的延伸性能是,矢量量化器的最佳性能比自然数据源更容易估计。为此,我们引入了一种新型的熵受限矢量量化的变体 ...
本文提出了 WanJuan-CC,一个源自 Common Crawl 数据的安全且高质量的开源英语网络文本数据集。该研究解决了为语言模型构建大规模预训练数据集的挑战,这需要大量高质量的数据。设计了一套全面的流程来处理Common Crawl数据,包括提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤 ...
印刷和数字显示的照片具有隐藏可以通过Internet连接成像系统访问的不可察觉的数字数据的能力。考虑到这一点的另一种方法是物理照片,它们在其中嵌入了独特的QR码。本文介绍了一种架构,算法和针对该愿景的原型实现 ...
大型语言模型(LLMS)改变了自然语言处理景观,并使多样化的应用栩栩如生。在大量的网络规模数据上进行了预处理为这些模型奠定了基础,但是研究界现在越来越多地转移到训练后技术方面,以实现进一步的突破。虽然预处理提供了广泛的语言基础,但培训后方法使LLMS能够完善其知识,提高推理,提高事实准确性,并更有效地与用户的意图和道德注意事项更有效地保持一致 ...
本文解决了当前的类人形机器人控制框架的局限性,该框架主要依赖于反应性机制,并且由于数据稀缺而缺乏自主互动能力。我们提出了人形vla,这是一个新颖的框架,该框架整合了语言的理解,以当时的场景感知和运动控制,从而实现了普遍的人形生物控制。人类VLA始于语言 - 动作前使用与文本描述配对的非中心人体运动数据集的预先对准,从而使模型可以学习通用运动模式和动作语义 ...
我们提出了Light3R-SFM,这是一种从无约束的图像收集中从无约束的图像收集中有效的大规模结构(SFM)的端到端学习框架。与现有的SFM解决方案依靠昂贵的匹配和全球优化来实现准确的3D重建,Light3R-SFM通过一种新型的潜在全球对齐模块来解决这一限制。该模块用可学习的注意机制代替了传统的全局优化,从而有效地捕获了图像跨图像的多视图约束,从而获得了稳健和精确的相机姿势估计 ...
大型语言模型(LLMS)在为任务计划推理方面表现出了出色的能力。但是,对于并行时间表,挑战仍然不足。本文介绍了一种新颖的范式,计划范围的范围,其中模型首先将真实的文本任务分解为可执行的子任务并构造抽象任务图 ...