2739|3

382

帖子

9

TA的资源

纯净的硅(初级)

楼主
 

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用四——NLP使用自定义词典 [复制链接]

在上篇(https://bbs.eeworld.com.cn/thread-1178634-1-1.html)中,我们在米尔MYS-8MMQ6-8E2D-180-C的板卡上尝试对词性进行了标注,发现jieba缺省库中的词性识别并不是特别准确,同时而且分词还存在一些问题,本篇进一步学习NLP,并尝试解决这些问题。

解决上述词典质量不佳问题的最简单方法就是重建一个词典,但那样的话,工作量实在太大,好在jieba里面,支持多词典的叠加使用,可以使用类似jieba.add_word('阿紫道',tag='err')直接屏蔽识别错误的词语,也可以使用类似jieba.load_userdict("wg.txt")重新加载词典。

作为一个武侠迷,花了近两周时间做了一个金庸武侠招式的字典,自定义了拳、掌(爪)、腿、刀、剑等各种招式的字典,加载成功以后尝试运行,结果如下:

射雕英雄传:

 

天龙八部:

 

    发现似乎有点什么不对劲,刀法里面的那个“不要”是哪里来的呢?

    自定义的字典很明确是没有这个的,那么只可能是jiaba自己带进来的了,这个词应该是非常常用的。

    搜索dict.txt文件,找到在/usr/lib/python2.7/site-packages/jieba/dict.txt

 

    可以看到不要被标注成为了“df”,与我们自定义的“刀法”缩写重合了,造成了误判;而且在词典中,仅有这一个“df”标记,推测是标记写错了,可以在代码中直接将“不要”改为v,再尝试执行:

 

    很明显,刀法中的“不要”就已经没有了。自定义词典功能验证成功。

 

 

 

最新回复

谢谢分享,NLP接触少,现在看来也挺有意思的。   详情 回复 发表于 2021-9-22 18:01
点赞 关注

回复
举报

6587

帖子

0

TA的资源

五彩晶圆(高级)

沙发
 

词典功能验证成功,说明金庸武侠招式的字典招式挺管用,,,,,

 
 

回复

1412

帖子

3

TA的资源

版主

板凳
 

很有意思呀这个。

 
个人签名

没有什么不可以,我就是我,不一样的烟火! 

 
 

回复

7452

帖子

18

TA的资源

五彩晶圆(高级)

4
 

谢谢分享,NLP接触少,现在看来也挺有意思的。

 
个人签名

默认摸鱼,再摸鱼。2022、9、28

 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/10 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表