remaper的文档

Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners

多任务学习（MTL）中的优化比单任务学习（STL）变得更加适应，因为不同任务的梯度可能是矛盾的。当任务相关时，在它们之间共享一些参数（合作）可能是有益的然而，某些任务具有特定类型数据或区分（专业化）方面的专业知识的附加参数... ...

0 1 0 0 2024/12/18 arXiv:2212.08066v1 remaper

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从经验来看，它们在预训练效率和下游任务准确性方面表现不佳 Transformers。我们引入了 Megalodon，一种用于高效序列建模的神经架构，具有无限的上下文长度。 Megalodon继承了Mega（具有门控注意力的指数移动平均）的架构，并进一步引入了多种技术组件来提高其能力和稳定性，包括复杂指数移动平均（CEMA）、时间步标准化层、标准化注意力机制和具有两个特征的预标准化-hop 剩余配置 ...

0 0 0 0 2024/05/24 arXiv:2404.08801v2 remaper

Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Splitwise: Efficient generative LLM inference using phase splitting

ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference

LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning

DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training

Splitwise: Efficient generative LLM inference using phase splitting

Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）