2905|2

402

帖子

9

TA的资源

纯净的硅(初级)

楼主
 

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用 [复制链接]

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用三——NLP词性分析与应用

上篇我们说到可以利用jieba进行分词,这篇我们继续研究jieba的使用。

在jieba中,还有一个很重要的功能,就是对词性进行标注,支持对不同词性进行标注。现代汉语中的词性分为实词、虚词、叹词、拟声词四个大类。

实词(有实际意义的词,能独立充当句子成分,即有词汇意义和语法意义),包括体词(名词、数词和量词)、谓词(动词和形容词)、加词(副词)和代词(主要作用是替代,可替代名词、数词、量词、动词、形容词和副词。所替代的对象不同,语法功能就不同)。

虚词(没有完整意义但有语法意义或功能的词。其必须依附于实词或语句来表示语法意义,不能单独成句、单独作语法成分、重叠),包括关系词(连词和介词)和辅助词(助词和语气词)。

拟声词和叹词既不属于实词和虚词,同为特殊词类分类。其特点是在句子中通常不跟其他词发生结构关系。

NLP中,对语言的分析,除了分词外,还可以对词性进行标注。以jieba为例,使用缺省词库,常用的标注有:

x:标点符号

eng:英语单词

a:形容词

n:名称

nr:人名

ns :地名

nt机构团体

r:代词

t:时间

f:方位

我们不妨仍然以《战争与和平》来分析一下,看看里面提到的人名有多少,认为提到少于15次的名字不考虑。

 

可以看到,jieba对词语的词性识别并不是特别准确,陆军、元帅等都识别成为人名。

也许是外文的原因?我们找个武侠小说,拿《天龙八部》试试?

可以看到不仅词性标注有问题,连分词都产生了错误,例如:向萧峰、童姥道等等,显然是需要修正的。

在下一篇,我们考虑引入自定义字典来实现同样功能,并制作字典优化

最新回复

看一段以为上了语文课。   详情 回复 发表于 2021-9-6 10:07
点赞 关注

回复
举报

6828

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

对词性进行标注,支持对不同词性进行标注,这个功能很厉害

 
 

回复

2万

帖子

71

TA的资源

管理员

板凳
 

看一段以为上了语文课。

加EE小助手好友,
入技术交流群
EE服务号
精彩活动e手掌握
EE订阅号
热门资讯e网打尽
聚焦汽车电子软硬件开发
认真关注技术本身
 
个人签名

加油!在电子行业默默贡献自己的力量!:)

 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/7 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表