4081|8

400

帖子

9

TA的资源

纯净的硅(初级)

楼主
 

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用二——NLP初探 [复制链接]

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用二——NLP初探

自然语言(NL)到机器语言(ML)应用是目前比较热门的方向,其中有一个分支就是如何让机器去识别一句人话,包括语境、语义、情感等。

其中最重要的部分是断句。今天我们尝试用米尔MYS-8MMQ6-8E2D-180-C来试试断句。

今天尝试的NLP库是jieba,安装库文件,因为直接安装可能会出现连接异常,因此需要指定源:

pip3 install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

同样,在python2上也安装jieba,命令为:

pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

 

先尝试一个较简单的:“自行车快倒了,我一把把把把住了”。这段话里面的若干个把字,发音是不同的,它的意思是我一把(我一下子)把(介词)把(读第四声,指单车龙头)把住(抓住、握住)了。

比较有意思的是python2可以正常执行,但python3会出错,似乎是re模块出错。

统计一下名著中词语吧,获取频率最高的20个词,同样python3不可用,在python2下运行成功。

。在我们的实验例子中,选取的是《战争与和平》,讲述的内容大家都很熟悉,就不水字数了。

从上面的例子可以看到,jieba将符号也单独切出来了,单字词的意义不大,可以直接抛弃字长为1的词语(包括标点符号),根据汉语规则,选择“停用词表”,可以在https://gitee.com/chen_kailun/stopwords下载,里面有四个中文常用停用词表:

词表名

词表文件

中文停用词表

cn_stopwords.txt

哈工大停用词表

hit_stopwords.txt

百度停用词表

baidu_stopwords.txt

四川大学机器智能实验室停用词库

scu_stopwords.txt

选择“百度停用词表”,并且直接调用jieba中获取关键词的函数textrank、extract_tags与我们选出的高频词进行比较。

可以看出,重合的内容有一些,比如:“公爵”(果然安德烈才是真主角),更多的是不同关键字,jieba选取关键词的方法不明,不过可能不是简单粗暴的选取出现频率最高的词做关键词。

另外,感觉单板电脑性能比起笔记本来说,还是太慢了,在电脑上执行同样代码,只是秒级到十秒级,依然拿树莓派来做比较,手边的树莓派4同样在python2上安装jieba。同样代码进行测试:

比较上述两个结果,发现树莓派4b做同样的工作只需要一小半的时间(71/177、174/466、16/34),这与我们之前用圆周率测试的结果MYS-8MMQ6-8E2D-180-C仅略弱于树莓派4b(参看:https://bbs.eeworld.com.cn/thread-1175554-1-1.html)不太一样。

另外,在MYS-8MMQ6-8E2D-180-C运行结果中的“东西:530”很奇怪的变成了“:11679”不知道是不是编码错误。

 

 

getkeyword.py (2.65 KB, 下载次数: 0, 售价: 10 分芯积分)

最新回复

pdd。。。估计不是慢,那是卡了。   详情 回复 发表于 2021-8-26 17:20
点赞(1) 关注

回复
举报

2万

帖子

74

TA的资源

管理员

沙发
 

嘿嘿 挺好玩的。

加EE小助手好友,
入技术交流群
EE服务号
精彩活动e手掌握
EE订阅号
热门资讯e网打尽
聚焦汽车电子软硬件开发
认真关注技术本身
 
个人签名

加油!在电子行业默默贡献自己的力量!:)

 

回复

6807

帖子

0

TA的资源

五彩晶圆(高级)

板凳
 

圆周率测试米尔MYS-8MMX仅略弱于树莓派4b,这个是什么原因

点评

看我帖子啊(尽管有些图片被吃掉了,有时间我重测补一下),测出来结果就是这样  详情 回复 发表于 2021-8-25 14:58
 
 
 

回复

400

帖子

9

TA的资源

纯净的硅(初级)

4
 
Jacktang 发表于 2021-8-25 09:42 圆周率测试米尔MYS-8MMX仅略弱于树莓派4b,这个是什么原因

看我帖子啊(尽管有些图片被吃掉了,有时间我重测补一下),测出来结果就是这样

 
 
 

回复

7608

帖子

2

TA的资源

五彩晶圆(高级)

5
 

是不是SD卡的影响?SD卡的系统读取确实慢很多。

点评

不是,放在mmc里面。 树莓的是sd卡,但还是很快。 而且我在代码中计算时间起点的时候,已经将文本文件读到ddr了,没有计算读取文本的时间。  详情 回复 发表于 2021-8-25 22:04
 
个人签名

默认摸鱼,再摸鱼。2022、9、28

 
 

回复

400

帖子

9

TA的资源

纯净的硅(初级)

6
 
freebsder 发表于 2021-8-25 17:02 是不是SD卡的影响?SD卡的系统读取确实慢很多。

不是,放在mmc里面。

树莓的是sd卡,但还是很快。

而且我在代码中计算时间起点的时候,已经将文本文件读到ddr了,没有计算读取文本的时间。

点评

我之前用过不同速度的sd卡,对系统整体影响是体感能感觉的大。高速sd刷命令是刷刷刷的,速度慢的敲了回车还要明显等一下才执行。  详情 回复 发表于 2021-8-26 17:08
 
 
 

回复

7608

帖子

2

TA的资源

五彩晶圆(高级)

7
 
tobot 发表于 2021-8-25 22:04 不是,放在mmc里面。 树莓的是sd卡,但还是很快。 而且我在代码中计算时间起点的时候,已经将文本 ...

我之前用过不同速度的sd卡,对系统整体影响是体感能感觉的大。高速sd刷命令是刷刷刷的,速度慢的敲了回车还要明显等一下才执行。

点评

是的,我以前专门在pdd上买了不同厂商的sd卡(估计都是水货)做过读写测试。。。  详情 回复 发表于 2021-8-26 17:15
 
个人签名

默认摸鱼,再摸鱼。2022、9、28

 
 

回复

400

帖子

9

TA的资源

纯净的硅(初级)

8
 
freebsder 发表于 2021-8-26 17:08 我之前用过不同速度的sd卡,对系统整体影响是体感能感觉的大。高速sd刷命令是刷刷刷的,速度慢的敲了回车 ...

是的,我以前专门在pdd上买了不同厂商的sd卡(估计都是水货)做过读写测试。。。

点评

pdd。。。估计不是慢,那是卡了。  详情 回复 发表于 2021-8-26 17:20
 
 
 

回复

7608

帖子

2

TA的资源

五彩晶圆(高级)

9
 
tobot 发表于 2021-8-26 17:15 是的,我以前专门在pdd上买了不同厂商的sd卡(估计都是水货)做过读写测试。。。

pdd。。。估计不是慢,那是卡了。

 
个人签名

默认摸鱼,再摸鱼。2022、9、28

 
 

回复
您需要登录后才可以回帖 登录 | 注册

查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/8 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表