EDA:用于提高文本分类任务性能的简单数据增强技术

Jason Wei1,2   Kai Zou3
1Protago Labs Research, Tysons Corner, Virginia, USA
2Department of Computer Science, Dartmouth College
3Department of Mathematics and Statistics, Georgetown University
jason.20@dartmouth.edu kz56@georgetown.edu


摘 要

我们提出 EDAeasy data augmentation 简单数据增强技术,以提高文本分类任务的性能。 EDA由四个简单但功能强大的操作组成:同义词替换,随机插入,随机交换和随机删除。 在五个文本分类任务上,我们表明EDA可以提高卷积神经网络和循环神经网络的性能。 EDA 对较小的数据集显示出特别强的结果;平均而言,在五个数据集中,用 EDA 仅以训练集的 50% 进行训练,其准确性与使用所有可用数据的正常训练相同。 我们还进行了广泛的消融研究,并建议实际使用的参数。

1 简介

文本分类是自然语言处理(NLP)中的一项基本任务。 机器学习和深度学习在从情感分析(Tang 等人,2015)到主题分类(Tong 和 Koller,2002)的任务上都达到了很高的准确性,但是很好的效果通常取决于训练数据的大小和质量,而这往往是乏味的。 自动数据增强通常用于计算机视觉中(Simard 等热播,1998Szegedy 等人,2014Krizhevsky 等人,2017)和语音(Cui 等人,2015Ko 等人,2015),可以帮助训练更健壮的模型,尤其是在使用较小的数据集时。 但是,由于提出用于语言变换的通用规则具有挑战性,因此 NLP 中通用的数据增强技术尚未充分探索。

操作方式

句子





None

A sad, superior human comedy played out on the back roads of life.



SR

A lamentable, superior human comedy played out on the backward road of life.



RI

A sad, superior human comedy played out on funniness the back roads of life.



RS

A sad, superior human comedy played out on roads back the of life.



RD

A sad, superior human out on the roads of life.

表 1:使用 EDA 生成的句子。 SR:同义词替换。 RI:随机插入。 RS:随机交换。 RD:随机删除。

先前的工作提出了一些用于NLP中数据增强的技术。 一项流行的研究通过将句子翻译成法语然后再翻译成英语来生成新数据(Yu 等人,2018)。 其他工作使用数据噪声作为平滑(Xie 等人,2017)和预测性语言模型来代替同义词(Kobayashi,2018)。 尽管这些技术是有效的,但由于其相对于性能提升而言具有较高的实现成本,因此在实践中并不经常使用它们。

在本文中,我们为NLP提供了一套简单的通用数据增强技术,称为EDA(easy data augmentation)。 据我们所知,我们是第一个全面探索将文本编辑技术用于数据增强的人员。 我们系统地评估了五个基准分类任务上的 EDA,表明 EDA 在所有五个任务上都进行了重大改进,而且对于较小的数据集特别有用。 代码可从http://github.com/jasonwei20/eda_nlp公开获得。

2 EDA

对于在小型数据集上训练的文本分类器的微不足道的性能感到沮丧,我们测试了一些在计算机视觉中受到启发的宽松操作,发现它们有助于训练更健壮的模型。 在这里,我们介绍了EDA的全部细节。 对于训练集中的给定句子,我们随机选择并执行以下操作之一:

1.
同义词替换(SR): 从句子中随机选择 n 个不是停用词的词。 用随机选择的一个同义词替换这些单词中的每个单词。
2.
随机插入(RI): 在句子中找到不是停用词的随机词的随机同义词。 将该同义词插入句子中的随机位置。 进行 n 次。
3.
随机交换(RS): 随机选择句子中的两个单词并交换其位置。 进行 n 次。
4.
随机删除(RD): 以概率 p 随机删除句子中的每个单词。

由于长句子比短句子具有更多的单词,因此它们可以吸收更多噪音,同时保持其原始类别标签。 为了补偿,我们根据句子长度 l,改变 SR、RI、RS 改变的单词数目 n,公式为 n=αl,其中 α 是一个参数,表示句子中的词被改变的百分比(对于 RD 我们用 p=α )。 此外,对于每个原始句子,我们生成 naug 个增强的句子。 1 显示增强的句子的示例。 我们注意到前人已经使用同义词替换(Kolomiyets 等人,2011Zhang 等人,2015Wang 和 Yang,2015 ),但据我们所知,尚未对随机插入、交换和删除进行广泛的研究。

3 实验设置

我们选择五个基准文本分类任务和两个网络结构来评估 EDA。

3.1 基准数据集

我们对五个基准文本分类任务进行了实验:(1)SST-2:斯坦福情感树库(Socher 等人,2013),(2)CR:客户评论(Hu 和 Liu,2004Liu 等人,2015),(3)SUBJ:主观性/客观性数据集(Pang 和 Lee,2004),(4)TREC:问题类型数据集(Li 和 Roth,2002)和(5 )PC:Pro-Con数据集(Ganapathibhotla 和 Liu,2008)。 摘要统计信息显示在补充材料的表5中。 此外,我们假设 EDA 对较小的数据集更有帮助,所以我们通过选择完整训练集的随机子集,使用以下大小的数据集,Ntrain={500, 2,000, 5,000, all available data}

3.2 文本分类模型

我们针对文本分类中的两种流行模型进行了实验。 (1)递归神经网络(RNN)适用于序列数据。 我们使用 LSTM-RNN(Liu 等人,2016)。 (2)卷积神经网络(CNN)也实现了文本分类的高性能。 我们按照(Kim,2014)中的说明实现它们。 详细信息在补充材料的 9.1 部分中。

4 结果

在本节中,我们将使用CNN和RNN在五个NLP任务上测试EDA。 对于所有实验,我们对五种不同随机种子的结果取平均。

4.1 EDA 取得效果

我们针对所有不同的训练集大小,在全部五个数据集中运行带有和不带有EDA的CNN和RNN模型。 2 中显示了平均性能(%)。 值得注意的是,完整数据集的平均改进为 0.8%,Ntrain=500 的平均改进为 3.0%。

训练集大小
模型 5002,0005,000full set





RNN 75.3 83.7 86.1 87.4
+EDA 79.1 84.4 87.3 88.3





CNN 78.6 85.6 87.7 88.3
+EDA 80.7 86.4 88.3 88.8





平均76.9 84.6 86.9 87.8
+EDA 79.9 85.4 87.8 88.6
表 2:具有和不具有EDA的模型在不同训练集大小下的五个文本分类任务的平均表现(%)。

图 1:具有和不具有 EDA 的基准文本分类任务的性能,各种大小数据集的训练结果。 作为参考,灰色虚线表示 Kim(2014)在 SST-2,CR,SUBJ 和 TREC 以及 Ganapathibhotla(2008)在 PC 上的最佳性能。

4.2 训练集大小

在较小的数据集上进行训练时,过度拟合的趋势会更加严重。 通过使用有限的可用训练数据进行实验,我们表明EDA对于较小的训练集具有更大的改进。 我们用训练集的以下部分 (%): {1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100} 运行普通训练和 EDA 训练。 1(a)-(e) 显示每个数据集在有和没有 EDA 的情况下的性能,1(f) 显示所有数据集的平均性能。 使用 100% 的训练数据没有数据增强可实现 88.3% 的最佳平均准确度。 使用 EDA 训练的模型的平均准确率超过这个数字达到 88.6%,而仅使用了可用训练数据的 50%。

4.3 EDA是否保留真实标签?

在数据增强中,在维持类别标签的同时更改输入数据。 但是,如果句子有明显变化,则原始的类别标签可能不再有效。 我们采用一种可视化方法来检查EDA操作是否会显着更改增强句子的含义。 首先,我们在不进行增强的前提下对 Pro-con 分类任务(PC)进行 RNN 训练。 然后,我们通过对每个原始句子生成 9 个增强后的句子来将 EDA 应用于测试集。 它们与原始句子一起送入 RNN,然后从最后一个密集层提取输出。 我们将 t-SNE(Van Der Maaten,2014)应用于这些向量,并绘制它们的二维表示(图 2)。 我们发现,生成的增强句子的潜在空间表示与原始句子的潜在空间表示非常接近,这表明在大多数情况下,以 EDA 增强的句子会保留其原始句子的标签。

图 2:Pro-Con 数据集中原始和增强句子的潜在空间可视化。 增强句子(小三角形和小圆形)紧紧围绕着相同颜色的原始句子(大三角形和大圆形),这表明增强句子保留了它们的真实类别标签。

图 3:针对不同的训练集大小,在五个文本分类任务上EDA操作的平均性能提升。 α 参数粗略地表示“句子中因每次增强而改变的单词百分比。” SR:同义词替换。 RI:随机插入。 RS:随机交换。 RD:随机删除。

4.4 消融研究:EDA 分解

到目前为止,我们已经看到令人鼓舞的经验结果。 在本节中,我们进行消融研究,以探索 EDA 中每个操作的效果。 前人已经使用过同义词替换(Kolomiyets 等人,2011Zhang 等人,2015Wang 和 Yang,2015),但是尚未探索其它三个 EDA 操作。 人们可能会假设 EDA 的大部分性能提升都来自于同义词的替代,因此我们将 EDA 的每个操作隔离开来,以确定它们各自提高性能的能力。 对于这四个操作,我们使用单个操作并变换增强的参数 α={0.05,0.1,0.2,0.3,0.4,0.5} 来运行模型 (图 3)。

事实证明,所有四个 EDA 操作都有助于提高性能。 对于 SR,小 α 改进较好,而大 α 损害性能,这很可能是因为替换句子中过多的单词会改变句子的身份。 对于 RI,不同的 α 值对于性能提升更为稳定,这可能是因为在此操作中保留了句子中的原始单词及其相对顺序。 RS 在 α0.2 处得到较高的性能改进,但在 α0.3 开始下降,因为执行过多的交换等同于改组整个句子的顺序。 RD 在 α 低的情况下具有最高的收益,但在 α 较高的情况下会严重损害性能,因为如果删除多达一半的单词,句子可能会难以理解。 对于所有操作,较小的数据集上的改进更为明显,α=0.1 似乎是“最佳位置”。

4.5 增强多少?

自然而然的下一步是确定每个原始句子生成的增强句子数量 naug 如何影响性能。 在图 4 中,我们显示所有数据集对于 naug={1,2,4,8,16,32} 的平均性能。

图 4:针对各种训练集大小,在五个文本分类任务中 EDA 的平均性能提升。 naug 是每个原始句子生成的增强句子的数量。

对于较小的训练集,过度拟合的可能性更大,因此生成许多增强句子会大大提高性能。 对于较大的训练集,每个原始句子添加四个以上的扩充句子没有帮助,因为当大量实际数据可用时,模型倾向于正确地泛化。 根据这些结果,我们建议在表3中使用参数。

Ntrain α naug



500 0.05 16
2,000 0.05 8
5,000 0.1 4
More 0.1 4
表 3:推荐使用的参数。

5 与相关工作的比较

相关工作很有创造力,但通常很复杂。 反向翻译(Sennrich 等人,2016),翻译数据增强(Fadaee 等人,2017)和添加噪声(Xie 等人,2017))已经显示用 BLEU 度量的机器翻译的改进。 对于其他任务,以前的方法包括特定于任务的启发式方法(Kafle 等人,2017)和反向翻译(Silfverberg 等人,2017Yu 等人,2018年)。 关于同义词替换(SR),一项研究表明,通过使用词嵌入找到 k 近邻的同义词,推文分类的 F1 分数提高了 1.4%(Wang 和 Yang,2015)。 另一项研究发现,用同义词替换 headwords 时,时间分析没有任何改善(Kolomiyets 等人,2011),并且报告了在字符级文本分类中使用 SR 的混合结果(Zhang 等人,2015);然而,两项工作均未进行广泛的消融研究。

大多数研究将数据增强作为翻译的补充结果或在特定任务的背景下进行,因此很难将 EDA 与以前的文献直接进行比较。 但是,有两项与我们类似的研究在多个数据集上评估了增强技术。 Hu(2017)提出了一种生成模型,该模型结合了变分自动编码器(VAE)和属性鉴别器来生成伪造数据,证明在两个数据集上的准确性提高了3%。 Kobayashi(2018)表明,使用双向语言模型将单词替换为从句子上下文中预测的其他单词可在五个数据集上带来0.5%的收益。 但是,训练可变自动编码器或双向LSTM语言模型是很多工作。 EDA产生的结果数量级相同,但使用起来更容易,因为它不需要训练语言模型,也不需要使用外部数据集。 在表4中,我们显示了EDA与其他技术相比的易用性。

Technique (#datasets)LMEx Dat




Trans. data aug.1 (1) yes yes
Back-translation2 (1) yes yes
VAE + discrim.3 (2) yes yes
Noising4 (1) yes no
Back-translation5 (2) yes no
LM + SR6 (2) yes no
Contextual aug.7 (5) yes no
SR - kNN8 (1) no no
EDA (5) no no
表 4:数据增强的相关工作。 #datasets:用于评估的数据集数量。 改进:报告所有评估数据集上的性能改进。 LM:需要训练语言模型或深度学习。 Ex Dat:需要外部数据集。9

6 讨论和限制

我们的论文旨在通过引入一组简单的操作来解决 NLP(与视觉相比)中缺乏标准化的数据增强的问题,这些操作可以作为将来调查的基准。 随着近年来 NLP 研究的发展,我们猜测研究人员很快会发现性能更高的增强技术,这些技术也将易于使用。

值得注意的是,NLP中的许多最新工作集中于使神经模型更大或更复杂。 但是,我们的工作采用相反的方法。 我们介绍简单的操作,这是问一个基本问题的结果,我们如何生成句子 在不更改其真实标签的情况下进行扩充? 我们不期望 EDA 成为现在或将来 NLP 的首选方法。 相反,我们希望我们的思路可以激发通用或特定于任务的数据增强的新方法。

现在,让我们注意许多 EDA 的局限性。 首先,当数据充足时,性能提升可能很小。对于我们的五个分类任务,使用完整数据集进行训练时,其平均性能提升小于 1% 尽管对于小型数据集,性能提升似乎很明显,但使用预训练的模型时,EDA可能不会产生实质性的改进。 一项研究发现,当使用 ULMFit 时,EDA 的改进可以忽略不计(Shleifer,2019),我们预计 ELMo(Peters 等人,2018)和BERT(Devlin 等人,2018)也会有类似的结果。 最后,尽管我们对五个基准数据集进行了评估,但其他有关NLP中数据增强的研究使用了不同的模型和数据集,因此与相关工作进行公平的比较是非常重要的。

7 结论

我们已经表明,简单的数据扩充操作可以提高文本分类任务的性能。 尽管有时改进很少,但在较小的数据集上进行训练时,EDA可以显着提高性能并减少过度拟合。 关于该主题的继续工作可以探索EDA运作的理论基础。 我们希望EDA的简单性能为进一步思考提供充分的理由。

8 致谢

我们感谢 Chengyu Huang、Fei Xing 和 Yifang Wei为研究设计和论文修订提供的帮助,并感谢 Chunxiao Zhou 的宝贵见解。 Jason Wei 感谢 Eugene Santos 的启发。

参考资料

   Xiaodong Cui, Vaibhava Goel, and Brian Kingsbury. 2015. Data augmentation for deep neural network acoustic modeling. IEEE/ACM Trans. Audio, Speech and Lang. Proc., 23(9):1469–1477.

   Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805.

   Marzieh Fadaee, Arianna Bisazza, and Christof Monz. 2017. Data augmentation for low-resource neural machine translation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 567–573. Association for Computational Linguistics.

   Murthy Ganapathibhotla and Bing Liu. 2008. Mining opinions in comparative sentences. In Proceedings of the 22Nd International Conference on Computational Linguistics - Volume 1, COLING ’08, pages 241–248, Stroudsburg, PA, USA. Association for Computational Linguistics.

   Minqing Hu and Bing Liu. 2004. Mining and summarizing customer reviews. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04, pages 168–177, New York, NY, USA. ACM.

   Zhiting Hu, Zichao Yang, Xiaodan Liang, Ruslan Salakhutdinov, and Eric P. Xing. 2017. Toward controlled generation of text. In ICML.

   Kushal Kafle, Mohammed Yousefhussien, and Christopher Kanan. 2017. Data augmentation for visual question answering. In Proceedings of the 10th International Conference on Natural Language Generation, pages 198–202. Association for Computational Linguistics.

   Yoon Kim. 2014. Convolutional neural networks for sentence classification. CoRR, abs/1408.5882.

   Tom Ko, Vijayaditya Peddinti, Daniel Povey, and Sanjeev Khudanpur. 2015. Audio augmentation for speech recognition. In INTERSPEECH.

   Sosuke Kobayashi. 2018. Contextual augmentation: Data augmentation by words with paradigmatic relations. In NAACL-HLT.

   Oleksandr Kolomiyets, Steven Bethard, and Marie-Francine Moens. 2011. Model-portability experiments for textual temporal analysis. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: Short Papers - Volume 2, HLT ’11, pages 271–276, Stroudsburg, PA, USA. Association for Computational Linguistics.

   Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2017. Imagenet classification with deep convolutional neural networks. Commun. ACM, 60(6):84–90.

   Xin Li and Dan Roth. 2002. Learning question classifiers. In Proceedings of the 19th International Conference on Computational Linguistics - Volume 1, COLING ’02, pages 1–7, Stroudsburg, PA, USA. Association for Computational Linguistics.

   Pengfei Liu, Xipeng Qiu, and Xuanjing Huang. 2016. Recurrent neural network for text classification with multi-task learning. In Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence, IJCAI’16, pages 2873–2879. AAAI Press.

   Qian Liu, Zhiqiang Gao, Bing Liu, and Yuanlin Zhang. 2015. Automated rule selection for aspect extraction in opinion mining. In Proceedings of the 24th International Conference on Artificial Intelligence, IJCAI’15, pages 1291–1297. AAAI Press.

   George A. Miller. 1995. Wordnet: A lexical database for english. Commun. ACM, 38(11):39–41.

   Bo Pang and Lillian Lee. 2004. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. In Proceedings of the 42Nd Annual Meeting on Association for Computational Linguistics, ACL ’04, Stroudsburg, PA, USA. Association for Computational Linguistics.

   Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. Glove: Global vectors for word representation. In Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543.

   Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. Deep contextualized word representations. CoRR, abs/1802.05365.

   David Rolnick, Andreas Veit, Serge J. Belongie, and Nir Shavit. 2017. Deep learning is robust to massive label noise. CoRR, abs/1705.10694.

   Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Improving neural machine translation models with monolingual data. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 86–96. Association for Computational Linguistics.

   Sam Shleifer. 2019. Low resource text classification with ulmfit and backtranslation. CoRR, abs/1903.09244.

   Miikka Silfverberg, Adam Wiemerslage, Ling Liu, and Lingshuang Jack Mao. 2017. Data augmentation for morphological reinflection. In Proceedings of the CoNLL SIGMORPHON 2017 Shared Task: Universal Morphological Reinflection, pages 90–99. Association for Computational Linguistics.

   Patrice Simard, Yann LeCun, John S. Denker, and Bernard Victorri. 1998. Transformation invariance in pattern recognition-tangent distance and tangent propagation. In Neural Networks: Tricks of the Trade, This Book is an Outgrowth of a 1996 NIPS Workshop, pages 239–27, London, UK, UK. Springer-Verlag.

   Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher Manning, Andrew Ng, and Christopher Potts. 2013. Parsing With Compositional Vector Grammars. In EMNLP.

   Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott E. Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. 2014. Going deeper with convolutions. CoRR, abs/1409.4842.

   Duyu Tang, Bing Qin, and Ting Liu. 2015. Document modeling with gated recurrent neural network for sentiment classification. pages 1422–1432.

   Simon Tong and Daphne Koller. 2002. Support vector machine active learning with applications to text classification. J. Mach. Learn. Res., 2:45–66.

   Laurens Van Der Maaten. 2014. Accelerating t-sne using tree-based algorithms. J. Mach. Learn. Res., 15(1):3221–3245.

   William Yang Wang and Diyi Yang. 2015. That’s so annoying!!!: A lexical and frame-semantic embedding based data augmentation approach to automatic categorization of annoying behaviors using #petpeeve tweets. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 2557–2563. Association for Computational Linguistics.

   Ziang Xie, Sida I. Wang, Jiwei Li, Daniel Levy, Aiming Nie, Dan Jurafsky, and Andrew Y. Ng. 2017. Data noising as smoothing in neural network language models.

   Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, and Quoc V. Le. 2018. Qanet: Combining local convolution with global self-attention for reading comprehension. CoRR, abs/1804.09541.

   Xiang Zhang, Junbo Zhao, and Yann LeCun. 2015. Character-level convolutional networks for text classification. In Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 1, NIPS’15, pages 649–657, Cambridge, MA, USA. MIT Press.

9 补充材料

9.1 实现细节

可以出于任何使用或目的下载所有EDA代码和本文中的实验:http://github.com/jasonwei20/eda_nlp 正文中省略了以下实现细节:
 

同义词库。 同义词替换和随机插入的所有同义词都是使用WordNet生成的(Miller,1995)。
 

词嵌入。 我们使用通过GloVe训练的300维单词嵌入(Pennington等人,2014)。
 

CNN。 我们使用以下架构:输入层,大小为5的128个滤波器的1D卷积层,全局1D最大池层,具有ReLU激活功能的20个隐藏单元的密集层,softmax输出层。 我们使用随机法线权重初始化该网络,并使用亚当优化器针对分类交叉熵损失函数进行训练。 我们使用3个纪元的耐心尽早停止。
 

RNN。 本文使用的体系结构如下:输入层,具有 64 个 LSTM 单元的双向隐藏层,具有 p=0.5 的 dropout 层,具有 32 个 LSTM 单元的双向隐藏层,具有p=0.5 的 dropout 层,具有 ReLU 激活的 20 个隐藏单元的密集层,softmax 输出层。 我们使用随机的正态权重初始化该网络,并使用 adam 优化器针对分类交叉熵损失函数进行训练。我们使用 3 个周期的 patience 提前停止。

9.2 基准数据集

5中显示了所使用的五个数据集的摘要统计信息。

数据集c l NtrainNtest |V |






SST-2217 7,4471,75215,708
CR218 4,082 452 6,386
SUBJ221 9,0001,00022,329
TREC6 9 5,452 500 8,263
PC 2 7 39,4184,50811,518
表5:五个文本分类数据集的摘要统计量。 c:类数。 l:平均句子长度(词数)。 N train:训练样本数。 N test:测试样本数。 | V |:词汇量。

10 常见问题

有关实施,用法和理论的常见问题解答。

10.1 实现

在哪里可以找到代码? http://github.com/jasonwei20/eda_nlp
 

如何找到同义词的同义词
替代? 我们使用WordNet(Miller,1995)作为同义词词典。 很容易下载。
 


是否存在针对中文或EDT的EDA实现?
其他语言? 还没有,但是实现很简单,我们鼓励您自己编写并共享。

10.2 用法

我应该对大型数据集使用EDA吗? 与视觉效果类似,当您使用大量图像训练分类器时,添加色彩抖动可能无济于事;如果您使用足够大的数据集,则EDA可能无济于事。
 


如果我使用的是预先训练的模型,我应该使用EDA
例如BERT或ELMo? 在大量数据集上进行过预训练的模型可能不需要EDA。
 


为什么我应该使用EDA代替其他技术
例如上下文增强,噪声,GAN, 或反向翻译? 以上所有都是有效的数据扩充技术,我们建议您尝试一下它们,因为根据数据集,它们实际上可能比EDA更好。 但是,由于这些技术本身需要使用深度学习模型来生成扩展句子,因此与预期的性能提升相比,实施这些技术通常会付出高昂的成本。 借助EDA,我们旨在提供一套可推广到一系列NLP任务的简单技术。
 


使用EDA是否真的会伤害
我的表现? 考虑到我们在五个分类任务中得出的结果,虽然不太可能,但总会有机会。 EDA操作之一可能会更改某些扩充句子的类别并创建标签错误的数据。 但是即使这样,“深度学习对于大量的标签噪声还是很健壮的”(Rolnick等,2017)。

10.3 理论

如何使用EDA改善文本分类 性能? 尽管很难准确确定EDA如何提高分类器的性能,但我们认为有两个主要原因。 首先是生成类似于原始数据的增强数据会引入一定程度的噪声,有助于防止过拟合。 第二个问题是,使用EDA可以通过同义词替换和随机插入操作引入新的词汇表,从而使模型可以泛化到测试集中不在训练集中的单词。 对于较小的数据集,这两种影响更为明显。
 


随机地做是不直观的
交换,插入或删除。 怎么会这样 可能有意义吗? 在句子中交换两个单词可能会生成对人类没有意义的加长句子,但它将保留大部分原始单词及其位置,并增加一些杂音,这对于防止过度拟合很有用。
 


对于随机插入,为什么只插入
与插入相反的同义词 有没有随机的单词? 数据扩充操作不应更改句子的真实标签,因为这会在数据中引入不必要的噪音。 在句子中插入一个单词的同义词(与随机单词相对)更可能与上下文相关,并保留句子的原始标签。