871|3

207

帖子

1

资源

一粒金砂(中级)

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用四——NLP使用自定义词典 [复制链接]

在上篇(http://bbs.eeworld.com.cn/thread-1178634-1-1.html)中,我们在米尔MYS-8MMQ6-8E2D-180-C的板卡上尝试对词性进行了标注,发现jieba缺省库中的词性识别并不是特别准确,同时而且分词还存在一些问题,本篇进一步学习NLP,并尝试解决这些问题。

解决上述词典质量不佳问题的最简单方法就是重建一个词典,但那样的话,工作量实在太大,好在jieba里面,支持多词典的叠加使用,可以使用类似jieba.add_word('阿紫道',tag='err')直接屏蔽识别错误的词语,也可以使用类似jieba.load_userdict("wg.txt")重新加载词典。

作为一个武侠迷,花了近两周时间做了一个金庸武侠招式的字典,自定义了拳、掌(爪)、腿、刀、剑等各种招式的字典,加载成功以后尝试运行,结果如下:

射雕英雄传:

image-20210919001609-1.png  

天龙八部:

image-20210919001609-2.png  

    发现似乎有点什么不对劲,刀法里面的那个“不要”是哪里来的呢?

    自定义的字典很明确是没有这个的,那么只可能是jiaba自己带进来的了,这个词应该是非常常用的。

    搜索dict.txt文件,找到在/usr/lib/python2.7/site-packages/jieba/dict.txt

image-20210919001610-3.png  

    可以看到不要被标注成为了“df”,与我们自定义的“刀法”缩写重合了,造成了误判;而且在词典中,仅有这一个“df”标记,推测是标记写错了,可以在代码中直接将“不要”改为v,再尝试执行:

image-20210919001610-4.png  

    很明显,刀法中的“不要”就已经没有了。自定义词典功能验证成功。

 

 

 


回复

6210

帖子

0

资源

五彩晶圆(初级)

词典功能验证成功,说明金庸武侠招式的字典招式挺管用,,,,,


回复

1028

帖子

3

资源

版主

很有意思呀这个。

个人签名

没有什么不可以,我就是我,不一样的烟火! 


回复

4601

帖子

1

资源

五彩晶圆(初级)

谢谢分享,NLP接触少,现在看来也挺有意思的。

个人签名

默认摸鱼


回复
您需要登录后才可以回帖 登录 | 注册

最新文章 更多>>
    关闭
    站长推荐上一条 1/8 下一条

    About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

    站点相关: 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

    北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

    电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2021 EEWORLD.com.cn, Inc. All rights reserved
    快速回复 返回顶部 返回列表