一译 —— 文档和论文翻译、对照阅读、讨论和社区

作为扩展大型语言模型（LLMS）的方法，专家（MOE）架构的混合物已变得越来越流行。为了节省成本，已经提出了异质性感知的培训解决方案，以利用由较新的和较旧的GPU组成的GPU群集。但是，现有的解决方案对不同MOE模型组件的性能特征不可知（i ...

0 0 0 2025/04/24 arXiv:2504.03871v1 zasolla

我们提出了ReaderLM-V2，这是一种紧凑的15亿个参数语言模型，旨在有效的Web内容提取。我们的模型处理最多512K Token ，将混乱的HTML转变为具有高精度的干净降价或JSON格式 - 使其成为接地大语言模型的理想工具 ...

0 0 0 2025/04/24 arXiv:2503.01151v1 takkeri

扩散 Transformer （DITS）在视觉生成任务中表现出色，例如基于文本说明生成逼真的图像或视频。但是，较大的模型大小和视频生成的多帧处理导致计算和内存成本增加，这对边缘设备上的实际部署构成了挑战。训练后量化（PTQ）是降低记忆成本和计算复杂性的有效方法 ...

0 0 0 2025/04/24 arXiv:2406.02540v3 11123

我们提出位置3D，这是一种在3D场景中定位对象的模型，该模型从称为“沙发和灯之间的小咖啡桌”之类的表达式。定位3D设置了标准参考基准测试基准的新最新设备，并展示了强大的概括功能。值得注意的是，定位3D直接在传感器观察流（摆置RGB-D帧）上运行，从而在机器人和AR设备上实现了现实世界的部署 ...

0 0 0 2025/04/24 arXiv:2504.14151v1 wonglliam

最先进的NPU通常被架构为具有多个异构硬件计算模块的独立子系统和数据流驱动的编程模型。在该行业中缺乏完善的方法和工具来评估和比较来自不同建筑的NPU的性能。我们提出了一个基于事件的性能建模框架VPU-EM，针对多元化的AI工作负载的现代NPU的可扩展性能评估 ...

0 0 0 2025/04/24 arXiv:2303.10271v1 zasolla

掩码语言建模（MLM）预训练方法（例如 bert）通过用[mask]替换一些标记来破坏输入，然后训练模型来重建原始标记。虽然它们在转移到下游nlp任务时会产生良好的结果，但它们通常需要大量计算才能有效。作为替代方案 ...

0 1 0 2025/04/24 arXiv:2003.10555v1 alanhe

结合语言，愿景和最近动作的基础模型已彻底改变了利用互联网规模数据的能力，以推理有用的任务。但是，训练体现的基础模型的主要挑战之一是缺乏基于物理世界的数据。在本文中，我们提出了Autort，该系统利用现有的基础模型来扩大在人类的监督下完全看不见的情况下运营机器人的部署 ...

0 0 0 2025/04/24 arXiv:2401.12963v2 mencius

大型语言模型（LLMS）的快速发展已在多机器人系统（MRS）中开辟了新的可能性，从而实现了增强的沟通，任务计划和人类机器人的互动。与传统的单机器人和多代理系统不同，太太提出了独特的挑战，包括协调，可扩展性和现实世界的适应性。这项调查提供了对LLM集成在MRS中的首次全面探索 ...

0 0 0 2025/04/24 arXiv:2502.03814v3 mencius