939|2

181

帖子

1

资源

一粒金砂(中级)

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用 [复制链接]

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用

上篇我们说到可以利用jieba进行分词,这篇我们继续研究jieba的使用。

在jieba中,还有一个很重要的功能,就是对词性进行标注,支持对不同词性进行标注。现代汉语中的词性分为实词、虚词、叹词、拟声词四个大类。

实词(有实际意义的词,能独立充当句子成分,即有词汇意义和语法意义),包括体词(名词、数词和量词)、谓词(动词和形容词)、加词(副词)和代词(主要作用是替代,可替代名词、数词、量词、动词、形容词和副词。所替代的对象不同,语法功能就不同)。

虚词(没有完整意义但有语法意义或功能的词。其必须依附于实词或语句来表示语法意义,不能单独成句、单独作语法成分、重叠),包括关系词(连词和介词)和辅助词(助词和语气词)。

拟声词和叹词既不属于实词和虚词,同为特殊词类分类。其特点是在句子中通常不跟其他词发生结构关系。

NLP中,对语言的分析,除了分词外,还可以对词性进行标注。以jieba为例,使用缺省词库,常用的标注有:

x:标点符号

eng:英语单词

a:形容词

n:名称

nr:人名

ns :地名

nt机构团体

r:代词

t:时间

f:方位

我们不妨仍然以《战争与和平》来分析一下,看看里面提到的人名有多少,认为提到少于15次的名字不考虑。

232744kv2ka27is1frl51v.png

 

可以看到,jieba对词语的词性识别并不是特别准确,陆军、元帅等都识别成为人名。

也许是外文的原因?我们找个武侠小说,拿《天龙八部》试试?

232744lvt6i22ib2ywaetv.png

可以看到不仅词性标注有问题,连分词都产生了错误,例如:向萧峰、童姥道等等,显然是需要修正的。

在下一篇,我们考虑引入自定义字典来实现同样功能,并制作字典优化


回复

6112

帖子

0

资源

五彩晶圆(初级)

对词性进行标注,支持对不同词性进行标注,这个功能很厉害


回复

2万

帖子

71

资源

管理员

看一段以为上了语文课。

个人签名

不管是哪年,都要加油!继续为中国电子行业做出小小的贡献吧! 扣扣 1206973913


回复
您需要登录后才可以回帖 登录 | 注册

最新文章 更多>>
    关闭
    站长推荐上一条 1/10 下一条

    About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

    站点相关: 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

    北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

    电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2021 EEWORLD.com.cn, Inc. All rights reserved
    快速回复 返回顶部 返回列表