wgkooo的文档

wgkooo

个性签名 ...

From Sparse to Soft Mixtures of Experts

专家架构（MoE）的稀疏混合可扩展训练模型容量，而不会大幅增加或推理成本。尽管取得了成功，MoE仍面临许多问题：训练不稳定、 Token 丢失、无法扩大专家数量或造成无效。最近工作中，我们提出了Soft MoE，这是一种完全可微的稀疏 Transformer ，可以解决这些挑战，同时保持MoE的优势... ...

0 0 0 0 2025/02/21 arXiv:2308.00951v2 wgkooo

Routers in Vision Mixture of Experts: An Empirical Study

Experts（MOE）模型的混合物是扩大模型容量而不会显着增加计算成本的有前途的方法。 MOE的关键组成部分是路由器，该路由器决定哪些特征嵌入（ Token ）的参数子集（专家）过程。在本文中，我们介绍了MOE中的路由器的全面研究，以完成计算机视觉任务 ...

0 0 0 0 2025/02/21 arXiv:2401.15969v2 wgkooo

StableMoE: Stable Routing Strategy for Mixture of Experts

Experts（MOE）技术的混合物可以通过负担得起的计算开销来扩展 Transformer 的模型大小。我们指出，现有的学习对教育部方法的现有学习问题遭受路由波动问题的影响，即 ...

0 0 0 0 2025/02/21 arXiv:2204.08396v1 wgkooo

Residual Mixture of Experts

专家（MOE）的混合物能够有效地扩展视觉 Transformer 。但是，它需要禁止计算资源来训练大型MOE Transformer 。在本文中，我们提出了专家的残留混合物（RMOE），这是在下游任务（例如分割和检测）上针对MOE视觉 Transformer 的有效训练管道 ...

0 0 0 0 2025/02/21 arXiv:2204.09636v3 wgkooo

Sparse MoEs meet Efficient Ensembles

与单个模型相比，基于激活或预测水平的子模型的汇总输出的机器学习模型通常表现出很强的性能。我们研究了两个流行类型的类型的相互作用：神经网络的集合和专家的稀疏混合物（稀疏的Moes）。首先，我们表明这两种方法具有互补特征，其组合是有益的 ...

0 0 0 0 2025/02/21 arXiv:2110.03360v2 wgkooo

Patcher: Patch Transformers with Mixture of Experts for Precise Medical Image Segmentation

我们提出了一个新的编码器视觉 Transformer 体系结构Patcher，用于医疗图像分割。与标准视觉 Transformer 不同，它采用了斑块块，将图像分为大斑块，每个图像进一步分为小斑块。 Transformer 被应用于一个大斑块中的小斑块，该贴片约束每个像素的接受场 ...

0 0 0 0 2025/02/21 arXiv:2206.01741v2 wgkooo

Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks

在深度学习中，专家（MOE）的混合物以每样本或按the的基础激活一个或几个专家（子网络），从而大大降低计算。最近提出的\下划线{p} atch级路由\下划线{moe}（pmoe）将每个输入分为$ n $ patches（或tokens），并将$ l $ patches（$ l \ ll n $）发送给每个专家通过优先路由。 PMOE在降低培训和推理成本方面取得了巨大的经验成功，同时保持了测试准确性 ...

0 0 0 0 2025/02/21 arXiv:2306.04073v1 wgkooo

Mixture of Experts Soften the Curse of Dimensionality in Operator Learning

在本文中，我们在功能空间之间构建了神经操作员（MONOS）的混合物，其功能空间的复杂性分布在专家神经操作员（NOS）网络上，每个都不令人满意的参数缩放限制。我们的主要结果是a \ textit {distributed}通用近似定理，保证$ l^2之间的任何Lipschitz非线性操作员都可以在Sobolev单位球上均匀地近似于任何lipschitz $ l^2（[0,1]^d）$。给定$ \ varepsilon> 0 $精度，通过单声道，同时满足以下约束：每个专家no都有一个深度，宽度和等级$ \ mathcal {o}（\ varepsilon^{ - 1}）$。自然地，我们的结果意味着所需的专家数必须很大，但是，保证每个否足够小，以使大多数计算机的主动内存都充满了合理的准确性，以获得合理的精确度$ \ varepsilon $ ...

0 0 0 0 2025/02/21 arXiv:2404.09101v1 wgkooo

Mixture of neural operator experts for learning boundary conditions and model selection

虽然基于傅立叶的神经操作员最适合在周期域上的功能之间学习映射，但一些作品引入了融合非琐碎边界条件的技术。但是，所有先前引入的方法都有限制其适用性的限制。在这项工作中，我们引入了一种替代方法，以施加受到数值方法和机器学习专家（MOE）混合物的体积惩罚启发的边界条件 ...

0 0 0 0 2025/02/21 arXiv:2502.04562v1 wgkooo

M$^{2}$M: Learning controllable Multi of experts and multi-scale operators are the Partial Differential Equations need

学习部分微分方程（PDE）的进化动力学对于理解动态系统至关重要，但是当前方法不足以了解其表示形式。这在很大程度上是由于解决方案的多尺度性质，在某些区域表现出快速振荡，而其他区域的发展较慢。本文介绍了旨在有效模拟和学习PDE的多尺度和多级专家（M $^2 $ M）神经操作员的框架 ...

0 0 0 0 2025/02/21 arXiv:2410.11617v1 wgkooo