在本研究中,我们介绍了 CT-LLM,这是一种 2B 大语言模型 (LLM),它说明了在开发 LLM 时向优先考虑中文的关键转变。 CT-LLM独特地从零开始,与传统方法不同,主要纳入中文文本数据,利用12000亿个 Token 的广泛语料库,其中8000亿个中文 Token 、3000亿个英文 Token 和1000亿个代码 Token 。这种策略组合促进了模型在理解和处理中文方面的卓越能力,通过对齐技术进一步增强了这种能力 ...

0 0 0 0 2024/04/24 arXiv:2404.04167v3 jecc

我们推出了 TextMonkey,这是一种专为以文本为中心的任务而定制的大型多模态模型 (LMM),包括文档问答 (DocVQA) 和场景文本分析。我们的方法引入了多个维度的增强:通过采用零初始化的转移窗口注意力,我们在更高的输入分辨率下实现了跨窗口连接并稳定了早期训练;我们假设图像可能包含冗余标记,通过使用相似性过滤掉重要标记,我们不仅可以简化标记长度,还可以提高模型的性能。此外,通过扩展我们的模型的功能以涵盖文本识别和基础,并将位置信息纳入响应中,我们增强了可解释性并最大限度地减少幻觉 ...

0 0 0 0 2024/04/18 arXiv:2403.04473v2 jecc

财务分析的任务主要包括两个关键领域:股票走势预测和相应的财务问题解答。目前,机器学习和深度学习算法(ML&DL)已广泛应用于股票走势预测,并取得了显着进展。然而,这些方法无法提供预测的理由,缺乏可解释性和推理过程 ...

0 0 0 0 2024/04/17 arXiv:2403.12582v1 jecc

大多数 NER 方法依赖于大量的标记数据来进行模型训练,这在训练数据有限的资源匮乏的场景中举步维艰。现有的主导方法通常面临这样的挑战:与资源丰富的源域相比,目标域具有不同的标签集,这可以归纳为类迁移和域迁移。在本文中,我们提出了一种通过可插入提示(LightNER)进行低资源 NER 的轻量级调优范例 ...

0 0 0 0 2024/04/16 arXiv:2109.00720v5 jecc

我们发现现有的语言建模数据集包含许多接近重复的示例和长重复的子字符串。因此,在这些数据集上训练的语言模型的无提示输出中有超过 1% 是从训练数据中逐字复制的。我们开发了两种工具,使我们能够对训练数据集进行重复数据删除,例如从 C4 中删除重复超过 60,000 次的单个 61 个单词的英语句子 ...

0 0 0 0 2024/04/01 arXiv:2107.06499v2 jecc

具有数十亿参数的大型语言模型,例如 GPT-3.5、GPT-4 和 LLaMA,越来越流行。许多研究探索了有效的激励技术,以利用这些 LLM 的力量来解决各种研究问题 ...

0 0 0 0 2024/03/29 arXiv:2403.18093v1 jecc

大型语言模型的最新进展在一般聊天中表现出了令人印象深刻的性能。然而,它们的特定领域能力,特别是在信息提取方面,具有一定的局限性。事实证明,从偏离已知模式或指令的自然语言中提取结构化信息对于以前基于提示的方法来说具有挑战性 ...

0 0 0 0 2024/03/29 arXiv:2403.05132v1 jecc

我们推出 FinTral,这是一套最先进的多模式大语言模型 (LLM),基于 Mistral-7b 模型构建,专为财务分析而定制。 FinTral 集成了文本、数字、表格和图像数据。我们利用我们为此工作策划的大量文本和视觉数据集,通过特定领域的预训练、指令微调和 RLAIF 训练来增强 FinTral ...

0 0 0 0 2024/04/15 arXiv:2402.10986v1 jecc

随着预训练语言模型 (PLM)(一种流行的代码智能方法)规模的不断扩大,其使用的计算成本变得异常昂贵。即时学习是自然语言处理领域的最新发展,成为应对这一挑战的潜在解决方案。在本文中,我们研究了代码智能任务中即时学习的有效性 ...

0 0 0 0 2024/03/21 arXiv:2403.13588v1 jecc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)