wwqiqi的文档

wwqiqi

个性签名 ...

Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

思想链 (CoT) 解码使语言模型能够提高推理性能，但代价是解码中的高生成延迟。最近的提案探索了沉思标记的变体，我们引入的这个术语指的是在推理过程中使用的特殊标记，以允许额外的计算。先前的工作已将从一组离散的嵌入中提取的固定长度序列视为沉思 Token ...

0 0 0 0 2024/12/19 arXiv:2412.13171v1 wwqiqi

Distilling Text Style Transfer With Self-Explanation From LLMs

文本风格迁移（TST）旨在改变文本风格，同时保留其核心内容。考虑到 TST 并行数据集有限的限制，我们提出了 CoTeX，一个利用大型语言模型 (LLM) 和思想链 (CoT) 提示来促进 TST 的框架。 CoTeX 将 LLM 的复杂重写和推理能力提炼成更简化的模型，能够处理非并行和并行数据 ...

0 0 0 0 2024/09/30 arXiv:2403.01106v2 wwqiqi

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

生成包含场景和镜头语言等信息的高质量拍摄脚本对于短剧脚本生成至关重要。我们从互联网上收集了 6,660 部热门短剧集，平均每集有 100 集短剧，短集总数约为 80,000 集，总时长约为 2,000 小时，总计 10 TB。我们对每集进行关键帧提取和标注，得到约10,000,000个拍摄脚本 ...

0 0 0 0 2024/09/30 arXiv:2408.09333v2 wwqiqi

Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review

大型语言模型 (LLM) 预训练传统上依赖于对网络规模数据集中随机采样的数据块进行自回归语言建模。我们从人类学习技术（例如间隔重复）中汲取灵感，假设 LLM 的随机数据采样会导致高训练成本和低质量模型，而这些模型往往会忘记数据。为了有效地将网络规模的信息提交到长期记忆中，我们提出了 LFR（学习、聚焦和回顾）教学法，这是一种新的动态训练范式，它基于模型的学习，以系统间隔聚焦并重复审查复杂的数据块步伐和进展 ...

0 0 0 0 2024/09/12 arXiv:2409.06131v1 wwqiqi

Navigating the Path of Writing: Outline-guided Text Generation with Large Language Models

大型语言模型 (LLM) 极大地影响了写作过程，支持协作内容创建并提高生产力。然而，生成高质量、用户对齐的文本仍然具有挑战性。在本文中，我们提出了写作路径，这是一个使用明确的大纲来指导 LLM 生成以目标为导向的高质量写作的框架 ...

0 0 0 0 2024/09/11 arXiv:2404.13919v1 wwqiqi

Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data

神经机器翻译 (NMT) 的最新研究表明，对高质量机器生成数据的训练可以优于对人类生成数据的训练。这项工作伴随着首次发布的 LLM 生成、MBR 解码和 QE 重新排序数据集，其中包含句子级和多句子示例。我们进行了大量的实验，以证明我们的数据集的质量对 NMT 模型性能的下游影响 ...

0 0 0 0 2024/08/16 arXiv:2408.06537v2 wwqiqi

Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

Distilling Text Style Transfer With Self-Explanation From LLMs

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review

Navigating the Path of Writing: Outline-guided Text Generation with Large Language Models

Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data

Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives

Adapting Large Language Models to Domains via Reading Comprehension

Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation

1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）