中文命名实体识别研究方法综述

文档格式：DOCX| 5 页|大小 17.53KB|积分 22|2021-08-25 发布|文档ID：28306408

下载文档

下载文档到电脑，查找使用更方便还剩页未读，继续阅读>>

侵权申诉举报

1 / 5

此文档下载收益归作者所有下载文档

版权提示

文本预览

常见问题

中文命名实体识别研究方法综述李嘉欣王平摘要：命名实体是存在于现实世界里的事物，它們与现实世界有着相互作用、相互影响的关系，因此命名实体在一些场景里是很重要的文章从命名实体识别的定义着手，逐步阐述它从始初到如今的开展状况和识别方法及手段，分析命名实体识别的主要难点，最后通过命名实体识别的三个评价指标来判断实体的边界是否正确，以及实体的类型是否标注正确关键词：自然语言处理;命名实体识别;条件随机场;评价指标;信息抽取中图分类号：TP391文献标识码：A文章编号：1006-8228〔2021〕04-18-04Abstract：Namedentitiesarethingsthatexistintherealworld.Theyinteractandinfluenceeachotherwiththerealworld.Therefore，namedentitiesareveryimportantinsomescenarios.Startingwiththedefinitionofnamedentityrecognition，thispapergraduallyelaboratesitsdevelopmentfromthebeginningtothepresentanditsrecognitionmethodsandmeans，andanalyzesthemaindifficultiesofnamedentityrecognition，andfinallyjudgeswhethertheentityboundaryiscorrectandwhethertheentitytypeismarkedcorrectlythroughthreeevaluationindexesofnamedentityrecognition.Keywords：naturallanguageprocessing;namedentityrecognition;conditionalrandomfields;evaluationindex;informationextraction0引言随着大数据时代的出现和机器学习的开展，自然语言处理NLP变得越来越重要，而自然语言处理中的一个热门的研究方向--命名实体识别NER也开展了起来。

命名实体识别〔Namedentityrecognition，NER〕是机器翻译、问答系统、信息抽取和自然语言处理中一项重要的任务【1】，它的目的是从给出的一段文本中找出其中所有的实体，并将实体的属类标注出来如今，命名实体识别在生物医学、警情军事及农业渔业等方面均有广泛应用1命名实体识别的定义在1991年LisaF.Rau【2】研究如何从文本中抽取公司的名称，论文主要是将人工编写规那么的方法与启发式算法结合以此来实现公司名称识别的问题在1993年宋柔等【3】人出了一本基于规那么库的识别方法的书用于识别人名命名实体识别被正式的提出是在1995年的第六届MUC会议上，在之后的第七届MUC会议上给出了命名实体识别需要识别的三大类和七小类的实体后来在CONLL会议上将其定义为包含名称的短语【5】SIGHANBakeoff-2021，Bakeoff-2021等也大多采用了这种分类【1】除了主流的NER评测会议之外，Petasis、Alfonseca、Sekine、Borrega、Marrero等【1】学者也对命名实体的含义和类型进行热烈的讨论2命名实体识别的研究方法早期用来命名实体识别的方法主要是基于规那么的方法和基于字典的方法，但随着语料的增加制定的规那么也将越来越繁琐，使用基于规那么的方法和基于字典的方法就会过于费时费力。

随着大数据时代的到来，如HMM、SVM和CRF等传统的机器学习方法也被学者用于命名实体识别的任务上，到后期的深度学习方法，将神经网络模型引入进行命名实体识别和近期开始将注意力机制和迁移学习应用其中，命名实体识别的开展正受到了各方面的持续关注方法在正式提出命名实体概念后，早期的研究主要是采用规那么和字典的方法【6】基于规那么的方法和基于字典的方法都是要构建大量的规那么集或字典，然后按照需求将需要识别的汉字串放入制定的规那么集中或与所构建的字典进行匹配，经过屡次修正直到匹配成功但这种方法只能在小数据集上得到很好的准确率，而随着数据集中数据的增加这种方式变得不再适用由于使用基于词典和规那么的方法进行命名实体识别存在限制，它只能在特定的语料上识别能够得到很高的准确度，这样随着需要识别的实体多样化就需要制定更多的规那么和更大的词典，这样的工作也会越来越重和越来越复杂而随着机器学习的开展，在进行命名实体识别的任务时也开始考虑基于统计机器学习的方法方法基于统计机器学习的方法有基于隐马尔可夫模型〔HiddenMarkovMode，HMM〕的方法、基于最大熵〔MaxmiumEntropy〕的方法、基于支持向量机〔SupportVectorMachine，SVM〕的方法和基于条件随机场〔ConditionalRandomFields，CRF〕的方法。

方法在NER的第一步第一个基于支持向量机〔SVM〕的NE系统是由Yamada等人在2021年提出来的2021年HidekiIsozak和HidetoKazawa将支持向量机应用在命名实体识别任务上同年，McCallum等人将条件随机场也应用到命名实体识别的任务上在2021年庄明，老松杨，吴玲达【7】等人提出了基于统计的命名实体识别的方法该方法首先将一段文本切分为几段较短的句子，再使用自增长统计算法从切分后的句子中生成最初的数据集，并利用得到的信息筛选出实体这个方法不需要建立专业领域的大规模语料库，而是基于文本自身的用词特点进行统计分析，在实验中取得了良好的效果但它的缺点是对带有前缀的模式的生成过程难以进行有效分析而且自增长生成算法作为一种统计方法对低频词条无法有效识别方法在NER的第二步继统计机器学习的方法提出之后，人们尝试使用统计与规那么结合的方法用于命名实体识别如2021年向晓雯等[8]采用了统计与规那么结合的方法进行命名实体识别，其首先使用HMM模型对文本做词性标注，然后使用制定好的规那么对已经标注的文本再有一个修改的过程，他们采用的这种方法来做命名实体识别时，其三项评价标准均得到较高的数值。

2021年张剑[9]主要是对英文文本进行命名实体识别的研究，文中分别利用了改进的隐马尔可夫模型和条件随机域模型两种方法进行英文文本的命名实体识别，这个方法既兼顾了每个句子内部的局部特征又兼顾到每个词在同一文档中全局特征同年，Okanohara[10]在生物领域上使用改进的半监督条件随机场模型进行命名实体识别，主要用于识别蛋白质，DNA和RNA等实体2021年高国洋，戚银城，潘德锋[11]等对中文地名识别进行了研究，提出了一种结合多知识的识别方法，该方法首先以CRF模型为框架，将专家知识与局部特征以及复合特征相融合进行命名实体识别;并利用构建的规那么库对识别结果进行修正2021年鞠久朋等[12]也提出将条件随机场与规那么相结合的方法用于地理空间中的命名实体识别识别随着基于神经网络模型的深度学习技术在机器学习领域的开展越来越深入【4】尤其是使用词向量来表示词语的方法，一方面解决了由于高纬度向量空间的原因导致的数据稀疏问题，另一方面词向量本身也比人工选择的特征包含更多的语义信息，而且该方法可以从异构的文本中获取统一向量空间下的特征表示，给NER中的命名实体识别问题带来强大的开展动力在2021年Collobert[13]等学者首次提出基于神经网络的命名实体识别方法，该方法中每个单词具有固定大小的窗口，但未能考虑长距离单词之间的有效信息。

2021年Yonghuiwu[14]等学者在文中先后使用了两次深度神经网络，首先是对未标注的文本使用一次深度神经网络进行训练，然后再使用一次深度神经网络对训练后的词向量进行实体识别，该方法在生物学上F值超过了使用统计的方法进行命名实体识别同时ZhihengHuang[15]等人使用双向长短期记忆模型用于命名实体，文中采用双向长短期记忆模型和条件随机场即BILSTM-CRF模型进行命名实体识别2021年XuezheMal和EdurdHovy[16]提出的BILSTM-CNNs-CRF模型，相比于ZhihengHuang提出的BILSTM-CRF模型来说，文中多一步使用卷积神经网络训练词向量，再将训练后的向量作为双向长短期记忆模型的输入，再使用CRF对输出建立标签关系，以此来更有效的实现实体识别MouradGridach，HatemHaddad在2021年先前用于现代标准阿拉伯语〔MSA〕的命名实体识别〔NER〕模型在很大程度上依赖于功能和地名词典的使用，这非常耗时在文中介绍了一种基于双向选通递归单元〔GRU〕结合条件随机场〔CRF〕的新型神经网络架构，这种新颖的体系结构可以消除了对大多数手工工程功能的需求。

识别研究方法近期的命名实体识别方法除了在循环神经网络模型进行模型改进提出门控GRU模型外，还尝试使用CNN、SVM、Lattice、BERT等模型进行语言预训练，并在模型中引入注意力机制、迁移学习等来提高命名实体识别的准确度周晓磊[17]等人提出了使用SVM-BILSTM-CRF的神经网络模型对财产纠纷案件进行命名实体识别文中提出构建一个关于财产纠纷裁判文书的语料库，首先使用支持向量机将文本中包含实体的句子筛选出来，然后输入给BILSTM-CRF模型进行训练，最后使用训练好的模型对财产纠纷裁判文书进行命名实体识别王博冉[18]等人方法利用LatticeLSTM模型来提取句子中的词汇词，从而将文本中词信息输入到基于字符的循环神经网络-条件随机场模型中与基于字符和基于词的命名实体识别方法相比，本文提出模型的优势是其利用显性词汇信息而不是字符序列进行标注，且得到的分词误差率也得到了大幅度下降王子牛[19]等人提出了基于BERT的神經网络方法进行命名实体识别BERT预训练语言模型具有双向Transformer结构不仅可以增强字的语义表示，还可以根据其上下文生成语义向量文中提出的方法结合BERT和BILSTM-CRF模型对中文实体进行识别，以无需添加任何特征的方式提升了实体识别的准确率、召回率及F1值，验证了该方法的有效性。

武惠[20]等人提出了一种基于迁移学习的命名实体识别模型即TrBILSTM-CRF模型，该模型通过迁移学习算法将源域的信息迁移到所需的目标域中以此可以从其他领域获取到目前工作任务中所需要的信息实验结果说明，TrBILSTM-CRF模型在小规模数据集上进行中文机构名命名实体识别时，其准确率、召回率和F值相比于其他方法，取得了较好的效果3命名实体识别的研究难点由于中文的多样性且并没有可以将其划分开的明显标注，这导致我们在对中文进行命名实体识时会更加的困难实体能否被准确的从文本中识别出来主要在这两个方面：是否可以准确的划分出实体的边界;是否可以准确的判断出实体属类中文命名实体识别的难点有以下几个方面⑴命名实体的定义：在对中文进行实体识别时，可以发现中文实体的数量庞大且属类也很模糊，这就导致我们在对中文命名实体进行定义时会有很大的分歧首先是在对其进行命名实体识别时需要大量的标注数据而这恰恰也是我们缺少的，而且在对数据进行标注时还需要有一个命名实体的标准，这也是目前的难点之一⑵歧义的消解：传统的词典规那么方法可以很容易召回文本序列中在词表匹配到的词，但它的局限在无法解决歧义问题一种典型的歧义是多种可能划分的问题，比方下面这个例子。

输入序列：看到良方正在浇花可以分为：看到/良方/正在/浇花;也能分为：看到/良方正/在/浇花⑶边界的界定：虽然深度学习对歧义的消解有显著优势，但它通常会遇到的问题是对新词的边界把握模糊而词典中包含了大量词的边界信息因此如何把词典信息融入到深度学习模型中是近几年研究的主流现如今的方法是先对文本进行中文分词，再对得到的词进行标注⑷缺少标注数据：我们在进行命名实体识别的过程中不可缺少的就是已经标注好的数据，这也是在进行机器训练中不能缺少的一环但这些标注好的数据都是需要人工去标注的，这样就需要更多的人力投入到这个过程中，而这个已有的标注数据并不完全适用于各个领域，这样，在我们对特殊领域进行命名实体识别时就必须先人工构建这个领域的标注数据库，一旦这个标注数据库不够准确或者数据不够多，就会使得计算机的学习能力大幅度下降且难以训练出好的结果，这也是命名实体识别的难点之一4展望命名实体识别作为机器翻译、问答系统、信息抽取和自然语言处理的研究热点之一通过阅读，近年来学者们在神经网络模型的根底上通过引入注意力机制和迁移学习等方法以此取得了大量新的研究成果，而命名实体识别未来的开展也将围绕这些方面如今我们通过构建法律、生物、医学、军事等领域的数据库并在该数据库上进行实验，都取得了不错的结果。

但这里不可防止会遇到未登录词的问题，未登录词指的是那些没有被收录在词典中但必须切分出来的词而如何识别并处理未登录词将是命名实体识别未来的一个重要研究方向因此，后面的工作我们不仅要将已有的命名实体识别方法应用在各个领域上还要通过不断的改进模型来提高命名实体识别的准确度，并在命名实体识别的根底上对未登录词展开研究参考文献〔References〕：识别研究综述[J].情报学报，2021.37〔3〕：329-340【2】RauLF.ExtractingCompanyNamesfromText[C].In：Proceedingsofthe7thIEEEConferenceonArtificialIntelligenceApplications.1991：29-32识别方法[M].计算语言学研究与应用，北京语言学院出版社，1993.识别技术综述[J].无线电通信技术，2021.46〔3〕：251-260【5】GrishmanR，SundheimB.MessageUnderstandingConference-6：ABriefHistory[C].In：Proceedingsofthe16thInternationalConferenceonComputationalLinguistics，1996.识别研究[D].浙江大学硕士学位论文，2021.方法[J].计算机应用，2021.1：22-24识别系统[J].计算机应用，2021.10：2404-2406识别研究[D].哈尔滨工业大学硕士学位论文，2021.[10]DaisukeOkanohara，YusukeMisyao.YoshimasaTsuruka.ImprovingtheScalabilityofSemi-MarkovConditionalRandomFiekdsforNamedEntityRecognition[C].Proceedingsofthe21"InternationalConferenceonComputationalLinguisticsand44thAnnualMeetingoftheACL，2021：465-472识别[J].电脑开发与应用，2021.22〔8〕：26-28识别[J].计算机工程，2021.37〔7〕：210-212，215[13]COLLOBERTR，WESTONJ，BOTTOUL，etal.NaturalLanguageProcessing〔almost〕fromScratch[J].JournalofMachineLearningResearch，2021.12〔Aug〕：2493[14]YonghuiW，MinJiang，JianboLei，HuaXu.NamedEntityRecognitioninChineseClinicalTextUsingDeepNeuralNetwork.StudiesinHealthTechnologyandInformatics，2021：624-628[15]ZhihengHuang，WeiXuandKaiYu.BidirectionalLSTM-CRFModelsforSequenceTagging[J].arXiv，2021[16]MAX，HOVYE.End-to-endSequenceLabelingViaBi-directionalLSTM-CNNs-CRF[J].arXivpreprintarXiv：1603.01354，2021.识别方法[J].计算机系统应用，2021.28〔1〕：245-250识别模型研究[J].中国卫生信息管理杂志，2021.16〔1〕：84-88识别方法[J].计算机科学，2021.46〔S2〕：138-142识别[J].小型微型计算机系统，2021.40〔6〕：1142-1147。

点击阅读更多内容