文本分类论文

3个回答默认排序

默认排序

按时间排序

summer阿超

已采纳

TextCNN模型是由 Yoon Kim提出的 Convolutional Naural Networks for Sentence Classification 一文中提出的使用卷积神经网络来处理NLP问题的模型.相比较nlp中传统的rnn/lstm等模型,cnn能更加高效的提取重要特征,这些特征在分类中占据着重要位置.论文所提出的模型结构如下图所示：可以看出TextCNN的结构还是比较简单的,下面我们分块介绍一下TextCNN. 首先是输入层,输入跟大多数深度学习在nlp方面的处理一样,需要将文本转换成词索引,每个句子是一个向量,向量中每个元素代表这该词在词典中的词索引.其中词向量矩阵embedding可以在该模型中一起训练,也可以使用word2vec或者其他框架预训练好的词向量,然后在模型训练过程中进行Fine tune.这也就是上图中第一部份会有两个channel,一个non-static channels是表示词向量随着模型一起训练,static channels是表示使用预训练的词向量.而实验表明,在数据量小的情况下,使用non-static channels容易引起过拟合. 这部分的变量维度分别是:输入-[batch_size,sentence_length],词向量矩阵-[vocab_size,embedding_size],经过embedding处理后输出embedded-[batch_size,sentence_length,embedding_size],也就是图1中第一部分显示的内容.下面就要使用卷积操作进行处理了,但是卷积操作是四维的,除了embedded的三维之外,还有channels(在图像处理中,最后一维是三通道的颜色编码,但是在文本处理中该维值是1).所以在使用卷积处理前需要把embedded进行扩维处理.经过扩维处理后embedded变成了[batch_size,sentence_length,embedding_size,1]的矩阵. 在该部分使用卷积核对embedded做卷积处理,在论文中卷积核的size取了三个[2,3,4],这对应着n-gram模型,使得特征信息包含临近词信息,这里就不在过深说明,详细内容可以去看n-gram语言模型.如果卷积核的size为[2,3,4],那么就有三种卷积核,其中size为2的卷积核的shape是[2,embedding_size,1,num_filter],其他类似,其中num_filter代表着卷积核的数量,是超参数.这样我们以1的步长去进行卷积,会得到size_len*num_filter个列向量,其中size_len是size的种类数,这里是3个size.对应着图1中的第二部分.这部分的作用是提取了语义信息,其中包括n-gram模型.同时因为卷积操作的特点参数共享,所以可以减少了大部分参数,节约内存使用. 文中提到的pooling操作是max_pooling,就是将列向量中最大值取出来,对输入补0做过滤(有兴趣的朋友也可以试试平均池化,看看结果有神马不同),池化操作是对整个向量,所以它的shape是[1,sentence_length-size+1,1,1],其中sentence_length-size+1是上文提到的经过卷积处理后得到的列向量长度.然后对卷积得到的每个列向量进行池化操作后,会得到size_len*num_filter个元素,将他们合并在一起形成一个size_len*num_filter维的向量.也就是图1的第三部分. 全连接层就是正常的softmax,输入是池化后的向量,输出维度是我们要分类的类别数,为了防止过拟合,可以加一个l2正则,同时也可以在上述过程后加上dropout. 上本文在搜狗10分类新闻数据集进行测试,只使用了停用词,由于电脑内存不足,所以对文本内容进行了截断,只取了200个单词,所以测试结果可能不是最好的,进行调参或者添加一些其他trick可以使精度更高一些. Loss ACC TextCNN结构简单,精度比较高,只是速度相比没有Fasttext快,模型这种东西,没有绝对的好坏之说,所以根据不同数据集选择不同的模型,也是一门技术.

188 评论 1小时前发布

iamYolandaXYZ

文本分类好发论文。因为文本是历史悠久、应用广泛、使用灵活、认可度最高的信息载体。所以文本分类好发论文。论文常用来指进行各个学术领域的研究和描述学术研究成果的文章，简称之为论文。

279 评论 10小时前发布

蓝水晶朵朵

随着BERT等预先训练模型获得越来越多的关注，从数据增强实验到改进模型数学原理，大量的研究已经进一步提高了它们的性能。在本文中，作者提出了一种简洁有效的方法，在保持几乎相同的计算成本的情况下，利用标签嵌入技术来提高BERT的文本分类性能。在6个文本分类基准数据集上的实验结果证明了其有效性。文本分类是自然语言处理(NLP)中的一个经典问题。任务是将预定义的类或多个类注释到给定的文本中，其中文本表示是一个重要的中间步骤。为了学习更好的文本表示，已经开发了各种神经模型，包括卷积神经网络模型，循环神经网络模型和注意机制。预训练模型在文本分类方面也非常有利，因为它们通过避免从零开始来帮助简化训练过程。其中一组方法专注于单词嵌入，如word2vec和GloVe；另一种方法专注于上下文化单词嵌入，从CoVe到ELMo、OpenAI GPT、ULMFiT和BERT。 BERT在各种NLP任务中取得了特别令人印象深刻的表现。随着它的成功，通过对大量数据进行预训练的模型，如ERNIE、RoBERTa、UniLM和XLnet，由于其学习情境表示的能力而变得流行起来。这些模型基于多层双向注意机制，并通过MASK预测任务进行训练，这是BERT的两个核心部分。继续研究BERT的潜力仍然很重要，因为新的发现也可以帮助研究BERT的其他变体。在这项工作中，作者提出了一种简单而有效的方法来提高BERT的文本分类性能，通过类别标签的文本（如“世界”、“体育”、“商业”和“科学技术”）来增强上下文表示学习，同时不改变原始的编码器网络结构。本文的主要贡献如下: 图一展示了论文算法的大致结构，受句子对输入的启发，作者将标签文本与输入文本用[SEP]进行拼接，标签文本与输入文本用不同的片段向量(segment embeddings)表示。后面同正常文本分类相同，通过整体[CLS] embedding，图片中为接上tanh线性层进行分类，通过交叉熵损失训练。举例：假设有三个类别---体育、美食、人物。「马德里竞技」视角下这三类最后都是抽象的，为A/B/C，若训练时「体育美食人物+马德里竞技」--->体育，则模型能学习到「竞技」「体育」之间的关系，即利用label的文本信息。除了单个文本输入之外，作者对于句子对输入没用用[SEP]字符拼接标签文本与输入文本，因为前后不是自然句，不像NSP任务，这种方式记为 w/o[SEP] 除了使用文档将标签的原始文本编码到BERT中外，作者还实验为每个类选择更多的单词作为代表，从而扩大了Lj中标记的数量。通过tfidf 标签文本增强来进一步提高我们的模型的性能。使用基于WordPiece的Bert Tokenizer来对文本进行分词，然后计算每个subword的平均tf-idf得分，最后将前5、10、15或20作为补充标签文本到相应的类。其中AGNEWS包含四种类别，DBpedia包含14种类别，在线infer的时候也要加上这些前缀，会带来一定开销，所以label也不宜多，性能折中。同时，过多的label引入，也可能带来分类效果的下降。可以明显的看到不对句子pair input作区分w/o [SEP]取得了更好的效果。NSP任务在Bert pretrain阶段是用于预测下一个句子的。当我们将标签序列与输入文档连接时，[SEP]标记将非自然语言序列与自然语言句子组合在一起。这种差异可能导致了前训练和BERT微调之间的偏斜度，导致性能下降。

231 评论 12小时前发布

文本分类论文

3个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序