JayGee666的文档

JayGee666

个性签名 ...

Tele-LLMs: A Series of Specialized Large Language Models for Telecommunications

大型语言模型（LLM）的出现对各个领域产生了重大影响，从自然语言处理到医学和金融等领域。然而，尽管 LLM 迅速普及，但其在电信领域的应用仍然有限，通常依赖于缺乏特定领域专业化的通用模型。这种专业化的缺乏导致表现不佳，特别是在处理电信特定技术术语及其相关数学表示时 ...

0 0 0 0 2024/09/11 arXiv:2409.05314v1 JayGee666

OWL: A Large Language Model for IT Operations

随着IT运营的快速发展，高效管理和分析大量数据对于实际应用变得越来越重要。自然语言处理（NLP）技术在命名实体识别、机器翻译和对话系统等各种任务中表现出了卓越的能力。最近，大型语言模型 (LLM) 在各种 NLP 下游任务中取得了显着的改进 ...

0 0 0 0 2024/08/14 arXiv:2309.09298v1 JayGee666

DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task

最近，包括gpt-gpt-4在内的大型语言模型（llm）在理解和响应人类指令方面取得了显着的进展。然而，这些模型通常在英语中表现更好，并且没有经过针对医学领域的明确训练，导致诊断、药物推荐和其他医疗建议的精度不佳。此外，培训和部署对话模型对于医院来说仍然是不可能的 ...

0 0 0 0 2025/03/14 arXiv:2304.01097v2 JayGee666

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

现有的问答（QA）数据集无法训练 QA 系统执行复杂的推理并提供答案解释。我们引入了 HotpotQA，这是一个新数据集，包含 113k 个基于维基百科的问答对，具有四个关键特征：（1）对多个支持文档进行查找和推理才能回答；（2）问题是多元化的，并且不受任何先前存在的知识库或知识图式的限制；（3）我们提供推理所需的句子级支持事实，允许QA系统在强监督下进行推理并解释预测；（4）我们提供一种新型的事实比较问题来测试QA系统提取相关事实并进行必要的我们表明 HotpotQA 对最新的 QA 系统具有适应性，并且支持事实使模型能够提高性能并做出可解释的预测... ...

0 0 0 0 2024/12/06 arXiv:1809.09600v1 JayGee666

LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model

大型语言模型（LLM），包括专有模型和开源模型，在解决各种下游任务方面展现出了卓越的能力。然而，当涉及到中国的实际法律任务时，这些模式并不能满足实际要求。专有模型无法确保敏感法律案件的数据隐私，而开源模型由于缺乏法律知识而表现不佳 ...

0 0 0 0 2024/07/29 arXiv:2406.04614v1 JayGee666

Galactica: A Large Language Model for Science

信息超载是科学进步的主要障碍。科学文献和数据的爆炸性增长使得从大量信息中发现有用的见解变得越来越困难。如今，科学知识可以通过搜索引擎获取，但它们无法单独组织科学知识... ...

0 0 0 0 2025/03/21 arXiv:2211.09085v1 JayGee666

Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca

ChatGPT 和 GPT-4 等大型语言模型 (LLM) 极大地改变了自然语言处理研究，并在通用人工智能 (AGI) 方面取得了可喜的进展。尽管如此，与培训和部署 LLM 相关的高昂成本对透明、可访问的学术研究构成了巨大障碍。虽然社区已经开源了一些大型语言模型（例如 LLaMA），但这些模型主要关注英语语料库，限制了它们对其他语言的有用性 ...

0 0 1 1 2024/07/20 arXiv:2304.08177v3 JayGee666

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

语言模型已成为解决各种自然语言处理任务的关键技术，但有关如何开发性能最佳的语言模型的许多细节尚未报道。特别是，有关其预训练语料库的信息很少被讨论：商业语言模型很少提供有关其数据的任何信息；即使是开放模型也很少发布它们所训练的数据集，或者重现它们的确切方法。因此，进行某些语言建模研究是具有挑战性的，例如了解训练数据如何影响模型功能并形成其局限性 ...

0 0 0 0 2024/10/03 arXiv:2402.00159v2 JayGee666

Warm Up Cold-start Advertisements: Improving CTR Predictions via Learning to Learn ID Embeddings

点击率（CTR）预测一直是计算广告中最核心的问题之一。最近，产生广告 ID 低维表示的嵌入技术极大地提高了点击率预测的准确性。然而，这种学习技术对数据要求很高，并且在记录数据很少的新广告上效果不佳，这被称为冷启动问题 ...

0 0 0 0 2024/07/10 arXiv:1904.11547v1 JayGee666

A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model

近年来，大型语言模型的指令调优是自然语言处理领域的一个重要研究领域。由于资源和成本的限制，一些研究人员采用了参数高效的调优技术，例如LoRA，进行指令调优，并取得了令人鼓舞的结果。与全参数微调相比，基于LoRA的调优在以下方面表现出了显着的优势：培训费用。在本研究中，我们利用 LLaMA 作为基础模型，对全参数微调和基于 LoRA 的调整方法进行了实验比较 ...

0 0 0 0 2024/07/10 arXiv:2304.08109v2 JayGee666