信息超载是科学进步的主要障碍。科学文献和数据的爆炸性增长使得从大量信息中发现有用的见解变得越来越困难。如今,科学知识可以通过搜索引擎获取,但它们无法单独组织科学知识 ...

0 0 0 0 2024/07/22 arXiv:2211.09085v1 JayGee666

ChatGPT 和 GPT-4 等大型语言模型 (LLM) 极大地改变了自然语言处理研究,并在通用人工智能 (AGI) 方面取得了可喜的进展。尽管如此,与培训和部署 LLM 相关的高昂成本对透明、可访问的学术研究构成了巨大障碍。虽然社区已经开源了一些大型语言模型(例如 LLaMA),但这些模型主要关注英语语料库,限制了它们对其他语言的有用性 ...

0 0 0 0 2024/07/20 arXiv:2304.08177v3 JayGee666

语言模型已成为解决各种自然语言处理任务的关键技术,但有关如何开发性能最佳的语言模型的许多细节尚未报道。特别是,有关其预训练语料库的信息很少被讨论:商业语言模型很少提供有关其数据的任何信息;即使是开放模型也很少发布它们所训练的数据集,或者重现它们的确切方法。因此,进行某些语言建模研究是具有挑战性的,例如了解训练数据如何影响模型功能并形成其局限性 ...

0 0 0 0 2024/07/19 arXiv:2402.00159v2 JayGee666

点击率(CTR)预测一直是计算广告中最核心的问题之一。最近,产生广告 ID 低维表示的嵌入技术极大地提高了点击率预测的准确性。然而,这种学习技术对数据要求很高,并且在记录数据很少的新广告上效果不佳,这被称为冷启动问题 ...

0 0 0 0 2024/07/10 arXiv:1904.11547v1 JayGee666

近年来,大型语言模型的指令调优是自然语言处理领域的一个重要研究领域。由于资源和成本的限制,一些研究人员采用了参数高效的调优技术,例如LoRA,进行指令调优,并取得了令人鼓舞的结果。与全参数微调相比,基于LoRA的调优在以下方面表现出了显着的优势:培训费用。在本研究中,我们利用 LLaMA 作为基础模型,对全参数微调和基于 LoRA 的调整方法进行了实验比较 ...

0 0 0 0 2024/07/10 arXiv:2304.08109v2 JayGee666

ChipNeMo 旨在探索大语言模型(LLM)在工业芯片设计中的应用。我们没有直接部署现成的商业或开源LLM,而是采用以下领域适应技术:领域自适应标记化、领域自适应持续预训练、与领域特定指令的模型对齐以及领域适应检索模型。我们在三个选定的芯片设计 LLM 应用程序上评估这些方法:工程助理聊天机器人、EDA 脚本生成以及错误总结和分析 ...

0 0 0 0 2024/07/09 arXiv:2311.00176v5 JayGee666

根据各种来源的文本进行预训练的语言模型构成了当今 NLP 的基础。鉴于这些广泛覆盖的模型的成功,我们研究了针对目标任务领域定制预训练模型是否仍然有帮助。我们提出了一项跨四个领域(生物医学和计算机科学出版物、新闻和评论)和八个分类任务的研究,表明域内预训练的第二阶段(域自适应预训练)可以在高和低条件下带来性能提升。低资源设置 ...

0 0 0 0 2024/07/09 arXiv:2004.10964v3 JayGee666

将用户的自然语言问题转换为 SQL 查询(即 NL2SQL)可显着降低访问关系数据库的障碍 ...

0 0 0 0 2024/07/09 arXiv:2406.01265v1 JayGee666

预训练语言模型(PLM)在自然语言生成(NLG)任务中取得了显着的成功。到目前为止,大多数面向NLG的PLM都是使用大规模通用语料库以无监督的方式进行预训练的。与此同时,越来越多的模型使用标记数据进行预训练(即 ...

0 0 0 0 2024/06/28 arXiv:2206.12131v3 JayGee666

大型语言模型 (LLM) 的最新进展在理解和响应用户意图方面取得了显着的突破。然而,它们的性能落后于某些专业领域(例如中医)的一般用例。现有将中医纳入 LLM 的努力依赖于单轮和蒸馏对话数据的监督微调(SFT) ...

0 0 0 0 2024/06/21 arXiv:2308.03549v3 JayGee666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)