【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用二——NLP初探
<div class='showpostmsg'><p>【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用二——NLP初探</p><p>自然语言(NL)到机器语言(ML)应用是目前比较热门的方向,其中有一个分支就是如何让机器去识别一句人话,包括语境、语义、情感等。</p>
<p>其中最重要的部分是断句。今天我们尝试用米尔MYS-8MMQ6-8E2D-180-C来试试断句。</p>
<p>今天尝试的NLP库是jieba,安装库文件,因为直接安装可能会出现连接异常,因此需要指定源:</p>
<p>pip3 install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com</p>
<p></p>
<p>同样,在python2上也安装jieba,命令为:</p>
<p>pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com</p>
<p> </p>
<p>先尝试一个较简单的:“自行车快倒了,我一把把把把住了”。这段话里面的若干个把字,发音是不同的,它的意思是我一把(我一下子)把(介词)把(读第四声,指单车龙头)把住(抓住、握住)了。</p>
<p>比较有意思的是python2可以正常执行,但python3会出错,似乎是re模块出错。</p>
<p></p>
<p>统计一下名著中词语吧,获取频率最高的20个词,同样python3不可用,在python2下运行成功。</p>
<p>。在我们的实验例子中,选取的是《战争与和平》,讲述的内容大家都很熟悉,就不水字数了。</p>
<p></p>
<p>从上面的例子可以看到,jieba将符号也单独切出来了,单字词的意义不大,可以直接抛弃字长为1的词语(包括标点符号),根据汉语规则,选择“停用词表”,可以在https://gitee.com/chen_kailun/stopwords下载,里面有四个中文常用停用词表:</p>
<table class="3">
<tbody>
<tr>
<th>
<p>词表名</p>
</th>
<th>
<p style="text-align: justify; margin-top: 0; margin-bottom: 0;">词表文件</p>
</th>
</tr>
<tr>
<td>
<p>中文停用词表</p>
</td>
<td>
<p style="text-align: justify; margin-top: 0; margin-bottom: 0;">cn_stopwords.txt</p>
</td>
</tr>
<tr>
<td>
<p>哈工大停用词表</p>
</td>
<td>
<p style="text-align: justify; margin-top: 0; margin-bottom: 0;">hit_stopwords.txt</p>
</td>
</tr>
<tr>
<td>
<p>百度停用词表</p>
</td>
<td>
<p style="text-align: justify; margin-top: 0; margin-bottom: 0;">baidu_stopwords.txt</p>
</td>
</tr>
<tr>
<td>
<p>四川大学机器智能实验室停用词库</p>
</td>
<td>
<p style="text-align: justify; margin-top: 0; margin-bottom: 0;">scu_stopwords.txt</p>
</td>
</tr>
</tbody>
</table>
<p>选择“百度停用词表”,并且直接调用jieba中获取关键词的函数textrank、extract_tags与我们选出的高频词进行比较。</p>
<p></p>
<p>可以看出,重合的内容有一些,比如:“公爵”(果然安德烈才是真主角),更多的是不同关键字,jieba选取关键词的方法不明,不过可能不是简单粗暴的选取出现频率最高的词做关键词。</p>
<p>另外,感觉单板电脑性能比起笔记本来说,还是太慢了,在电脑上执行同样代码,只是秒级到十秒级,依然拿树莓派来做比较,手边的树莓派4同样在python2上安装jieba。同样代码进行测试:</p>
<p></p>
<p>比较上述两个结果,发现树莓派4b做同样的工作只需要一小半的时间(71/177、174/466、16/34),这与我们之前用圆周率测试的结果MYS-8MMQ6-8E2D-180-C仅略弱于树莓派4b(参看:https://bbs.eeworld.com.cn/thread-1175554-1-1.html)不太一样。</p>
<p>另外,在MYS-8MMQ6-8E2D-180-C运行结果中的“东西:530”很奇怪的变成了“:11679”不知道是不是编码错误。</p>
<p> </p>
<p> </p>
<p></p>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script> <p>嘿嘿 挺好玩的。</p>
<p>圆周率测试米尔MYS-8MMX仅略弱于树莓派4b,这个是什么原因</p>
Jacktang 发表于 2021-8-25 09:42
圆周率测试米尔MYS-8MMX仅略弱于树莓派4b,这个是什么原因
<p>看我帖子啊(尽管有些图片被吃掉了,有时间我重测补一下),测出来结果就是这样</p>
<p>是不是SD卡的影响?SD卡的系统读取确实慢很多。</p>
freebsder 发表于 2021-8-25 17:02
是不是SD卡的影响?SD卡的系统读取确实慢很多。
<p>不是,放在mmc里面。</p>
<p>树莓的是sd卡,但还是很快。</p>
<p>而且我在代码中计算时间起点的时候,已经将文本文件读到ddr了,没有计算读取文本的时间。</p>
tobot 发表于 2021-8-25 22:04
不是,放在mmc里面。
树莓的是sd卡,但还是很快。
而且我在代码中计算时间起点的时候,已经将文本 ...
<p>我之前用过不同速度的sd卡,对系统整体影响是体感能感觉的大。高速sd刷命令是刷刷刷的,速度慢的敲了回车还要明显等一下才执行。</p>
freebsder 发表于 2021-8-26 17:08
我之前用过不同速度的sd卡,对系统整体影响是体感能感觉的大。高速sd刷命令是刷刷刷的,速度慢的敲了回车 ...
<p>是的,我以前专门在pdd上买了不同厂商的sd卡(估计都是水货)做过读写测试。。。</p>
tobot 发表于 2021-8-26 17:15
是的,我以前专门在pdd上买了不同厂商的sd卡(估计都是水货)做过读写测试。。。
<p>pdd。。。估计不是慢,那是卡了。</p>
页:
[1]