jecc的文档

jecc

jecc

个性签名 ...

TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

我们推出了 TextMonkey，这是一种专为以文本为中心的任务而定制的大型多模态模型 (LMM)，包括文档问答 (DocVQA) 和场景文本分析。我们的方法引入了多个维度的增强：通过采用零初始化的转移窗口注意力，我们在更高的输入分辨率下实现了跨窗口连接并稳定了早期训练；我们假设图像可能包含冗余标记，通过使用相似性过滤掉重要标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展我们的模型的功能以涵盖文本识别和基础，并将位置信息纳入响应中，我们增强了可解释性并最大限度地减少幻觉 ...

0 0 0 0 2024/12/08 arXiv:2403.04473v2 jecc

AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework

分析的任务主要包括两个关键领域：股票走势预测和相应的财务问题解答。目前，机器学习和深度学习算法（ML&DL）财务已广泛评估股票走势预测，并取得了显着的进展。然而，这些方法无法提供预测的理由，缺乏可解释的性和推理过程...... ...

0 0 0 0 2024/11/12 arXiv:2403.12582v1 jecc

LightNER: A Lightweight Tuning Paradigm for Low-resource NER via Pluggable Prompting

大多数 NER 方法依赖于大量的标记数据来进行模型训练，这在训练数据有限的资源匮乏的场景中举步维艰。现有的主导方法通常面临这样的挑战：与资源丰富的源域相比，目标域具有不同的标签集，这可以归纳为类迁移和域迁移。在本文中，我们提出了一种通过可插入提示（LightNER）进行低资源 NER 的轻量级调优范例 ...

0 0 0 0 2024/04/16 arXiv:2109.00720v5 jecc

Deduplicating Training Data Makes Language Models Better

我们发现现有的语言建模数据集包含许多近似训练重复的示例和长重复的子字符串。因此，在这些数据集上的语言模型的无提示输出中有超过 1% 是来自训练数据中逐次我们开发了两种工具，使我们能够对训练数据集进行重复数据删除，例如从 C4 中删除重复超过 60,000 次的单个 61 个单词的英语句子 ... ...

0 0 0 0 2025/01/11 arXiv:2107.06499v2 jecc

Enhancing Legal Document Retrieval: A Multi-Phase Approach with Large Language Models

具有数十亿参数的大型语言模型，例如 GPT-3.5、GPT-4 和 LLaMA，越来越流行。许多研究探索了有效的激励技术，以利用这些 LLM 的力量来解决各种研究问题 ...

0 0 0 0 2024/03/29 arXiv:2403.18093v1 jecc

ChatUIE: Exploring Chat-based Unified Information Extraction using Large Language Models

大型语言模型的最新进展在一般聊天中表现出了令人印象深刻的性能。然而，它们的特定领域能力，特别是在信息提取方面，具有一定的局限性。事实证明，从偏离已知模式或指令的自然语言中提取结构化信息对于以前基于提示的方法来说具有挑战性... ...

0 0 0 0 2025/02/23 arXiv:2403.05132v1 jecc

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

我们推出 FinTral，这是一套最先进的多模式大语言模型 (LLM)，基于 Mistral-7b 模型构建，专为财务分析而定制。 FinTral 集成了文本、数字、表格和图像数据。我们利用我们为此工作策划的大量文本和视觉数据集，通过特定领域的预训练、指令微调和 RLAIF 训练来增强 FinTral ...

0 0 0 0 2024/04/15 arXiv:2402.10986v1 jecc

Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models

随着预训练语言模型 (PLM)（一种流行的代码智能方法）规模的不断扩大，其使用的计算成本变得异常昂贵。即时学习是自然语言处理领域的最新发展，成为应对这一挑战的潜在解决方案。在本文中，我们研究了代码智能任务中即时学习的有效性 ...

0 0 0 0 2024/03/21 arXiv:2403.13588v1 jecc

The Consensus Game: Language Model Generation via Equilibrium Search

（（lm）可以进行生成式查询（通过从其输出分布中采样答案）（或区分性查询（通过使用它们对一组候选输出进行评分或排名）。）。 lm 预测？我们引入了一种新的、无需训练的、博弈论的语言模型解码过程 ... ...

0 0 0 0 2025/02/19 arXiv:2310.09139v1 jecc

Textbooks Are All You Need II: phi-1.5 technical report

我们继续研究由 \textbf{TinyStories} 发起的基于 Transformer 的小型语言模型的威力（一个可以产生连贯英语的 1000 万参数模型）以及 \textbf{phi-1} 的后续工作，一个 13 亿参数模型，Python 编码性能接近最先进。后一项工作建议使用现有的大型语言模型（LLM）来生成“教科书质量”的数据，作为与传统网络数据相比增强学习过程的一种方式 ...

0 0 0 0 2024/06/07 arXiv:2309.05463v1 jecc

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）

文件上传进度

0%

上传成功 0 个文件