jackson118的文档

jackson118

个性签名 ...

Multi-Task Dense Prediction via Mixture of Low-Rank Experts

以前基于专家混合（MOE）的多任务密集预测方法已经获得了出色的表现，但他们忽略了明确建模所有任务之间全球关系的重要性。在本文中，我们提出了一种以多任务密集预测为重点的新型方法，称为低级专家（MLORE）。为了建模全局任务关系，MLORE添加了原始MOE结构的通用卷积路径，每个任务功能都可以通过此路径进行显式参数共享 ...

0 0 0 0 2025/03/21 arXiv:2403.17749v2 jackson118

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models

FreeTrain+微调范式是在各种下游应用程序中部署大型语言模型（LLM）的基础。在此框架内，低级适应（LORA）在其参数效率微调（PEFT）中脱颖而出，产生了许多可重复使用的特定任务的LORA适配器。但是，这种方法需要明确的任务意图选择，在推断多个现有的LORA适配器中嵌入了单个LLM中的多个现有LORA适配器时，对自主任务感测和切换提出了挑战 ...

0 0 0 0 2025/03/13 arXiv:2405.13053v3 jackson118

Flexible and Adaptable Summarization via Expertise Separation

熟练的汇总模型应表现出灵活性 - 处理一系列内域摘要任务的能力以及适应性 - 获得新知识并适应未见范围的范围任务的能力。与通过参数缩放实现这一目标的大型语言模型（LLM）不同，我们在本研究中提出了一种更有效的方法。我们的动机基于这样的原则，即可以在不同的任务上共享捕获显着信息的一般摘要能力，而特定领域的摘要能力则需要明显和量身定制 ...

0 0 0 0 2025/03/07 arXiv:2406.05360v1 jackson118

Multi-Task Learning in Natural Language Processing: An Overview

深度学习方法在自然语言处理（NLP）领域取得了巨大的成功。但是，直接训练深层神经模型通常会遇到过度拟合和数据稀缺问题，而NLP任务中普遍存在。近年来，多任务学习（MTL）可以利用相关任务的有用信息来实现这些任务的同时绩效改进，以解决这些问题 ...

0 0 0 0 2025/03/06 arXiv:2109.09138v2 jackson118

Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners

传统的多任务学习（MTL）方法使用密集的网络，这些网络在几个不同的任务上使用相同的共享权重。这通常会产生干扰，其中两个或多个任务竞争以不同方向拉动模型参数。在这项工作中，我们研究了稀疏激活的专家混合物（MOE）是否通过专门研究一些学习共享表示形式并使用其他人来学习特定于任务的信息来改善多任务学习 ...

0 0 0 0 2025/03/06 arXiv:2204.07689v1 jackson118

PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing

大语言模型的缩放大大改善了自然语言的理解，产生和推理。在这项工作中，我们开发了一个系统，该系统在Ascend 910 AI处理器和Mindspore框架的集群上训练了一万亿参数语言模型，并使用名为Pangu-{\ Sigma}的1.085T参数呈现语言模型 ...

0 0 0 0 2025/03/04 arXiv:2303.10845v1 jackson118

Multi-Task Dense Prediction via Mixture of Low-Rank Experts

MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models

Flexible and Adaptable Summarization via Expertise Separation

Multi-Task Learning in Natural Language Processing: An Overview

Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners

PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）