tobot 发表于 2021-9-4 23:28

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用

<div class='showpostmsg'><p>【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三&mdash;&mdash;NLP词性分析与应用</p>

<p>上篇我们说到可以利用jieba进行分词,这篇我们继续研究jieba的使用。</p>

<p>在jieba中,还有一个很重要的功能,就是对词性进行标注,支持对不同词性进行标注。现代汉语中的词性分为实词、虚词、叹词、拟声词四个大类。</p>

<p>实词(有实际意义的词,能独立充当句子成分,即有词汇意义和语法意义),包括体词(名词、数词和量词)、谓词(动词和形容词)、加词(副词)和代词(主要作用是替代,可替代名词、数词、量词、动词、形容词和副词。所替代的对象不同,语法功能就不同)。</p>

<p>虚词(没有完整意义但有语法意义或功能的词。其必须依附于实词或语句来表示语法意义,不能单独成句、单独作语法成分、重叠),包括关系词(连词和介词)和辅助词(助词和语气词)。</p>

<p>拟声词和叹词既不属于实词和虚词,同为特殊词类分类。其特点是在句子中通常不跟其他词发生结构关系。</p>

<p>NLP中,对语言的分析,除了分词外,还可以对词性进行标注。以jieba为例,使用缺省词库,常用的标注有:</p>

<p>x:标点符号</p>

<p>eng:英语单词</p>

<p>a:形容词</p>

<p>n:名称</p>

<p>nr:人名</p>

<p>ns :地名</p>

<p>nt机构团体</p>

<p>r:代词</p>

<p>t:时间</p>

<p>f:方位</p>

<p>我们不妨仍然以《战争与和平》来分析一下,看看里面提到的人名有多少,认为提到少于15次的名字不考虑。</p>

<p></p>

<p>&nbsp;</p>

<p>可以看到,jieba对词语的词性识别并不是特别准确,陆军、元帅等都识别成为人名。</p>

<p>也许是外文的原因?我们找个武侠小说,拿《天龙八部》试试?</p>

<p></p>

<p>可以看到不仅词性标注有问题,连分词都产生了错误,例如:向萧峰、童姥道等等,显然是需要修正的。</p>

<p>在下一篇,我们考虑引入自定义字典来实现同样功能,并制作字典优化</p>
</div><script>                                        var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;"   style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
                                       
                                        if(parseInt(discuz_uid)==0){
                                                                                                (function($){
                                                        var postHeight = getTextHeight(400);
                                                        $(".showpostmsg").html($(".showpostmsg").html());
                                                        $(".showpostmsg").after(loginstr);
                                                        $(".showpostmsg").css({height:postHeight,overflow:"hidden"});
                                                })(jQuery);
                                        }                </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

Jacktang 发表于 2021-9-5 21:32

<p>对词性进行标注,支持对不同词性进行标注,这个功能很厉害</p>

soso 发表于 2021-9-6 10:07

<p>看一段以为上了语文课。</p>
页: [1]
查看完整版本: 【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用