tobot 发表于 2021-8-24 22:24

【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用二——NLP初探

<div class='showpostmsg'><p>【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用二&mdash;&mdash;NLP初探</p>

<p>自然语言(NL)到机器语言(ML)应用是目前比较热门的方向,其中有一个分支就是如何让机器去识别一句人话,包括语境、语义、情感等。</p>

<p>其中最重要的部分是断句。今天我们尝试用米尔MYS-8MMQ6-8E2D-180-C来试试断句。</p>

<p>今天尝试的NLP库是jieba,安装库文件,因为直接安装可能会出现连接异常,因此需要指定源:</p>

<p>pip3 install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com</p>

<p></p>

<p>同样,在python2上也安装jieba,命令为:</p>

<p>pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com</p>

<p>&nbsp;</p>

<p>先尝试一个较简单的:&ldquo;自行车快倒了,我一把把把把住了&rdquo;。这段话里面的若干个把字,发音是不同的,它的意思是我一把(我一下子)把(介词)把(读第四声,指单车龙头)把住(抓住、握住)了。</p>

<p>比较有意思的是python2可以正常执行,但python3会出错,似乎是re模块出错。</p>

<p></p>

<p>统计一下名著中词语吧,获取频率最高的20个词,同样python3不可用,在python2下运行成功。</p>

<p>。在我们的实验例子中,选取的是《战争与和平》,讲述的内容大家都很熟悉,就不水字数了。</p>

<p></p>

<p>从上面的例子可以看到,jieba将符号也单独切出来了,单字词的意义不大,可以直接抛弃字长为1的词语(包括标点符号),根据汉语规则,选择&ldquo;停用词表&rdquo;,可以在https://gitee.com/chen_kailun/stopwords下载,里面有四个中文常用停用词表:</p>

<table class="3">
        <tbody>
                <tr>
                        <th>
                        <p>词表名</p>
                        </th>
                        <th>
                        <p style="text-align: justify; margin-top: 0; margin-bottom: 0;">词表文件</p>
                        </th>
                </tr>
                <tr>
                        <td>
                        <p>中文停用词表</p>
                        </td>
                        <td>
                        <p style="text-align: justify; margin-top: 0; margin-bottom: 0;">cn_stopwords.txt</p>
                        </td>
                </tr>
                <tr>
                        <td>
                        <p>哈工大停用词表</p>
                        </td>
                        <td>
                        <p style="text-align: justify; margin-top: 0; margin-bottom: 0;">hit_stopwords.txt</p>
                        </td>
                </tr>
                <tr>
                        <td>
                        <p>百度停用词表</p>
                        </td>
                        <td>
                        <p style="text-align: justify; margin-top: 0; margin-bottom: 0;">baidu_stopwords.txt</p>
                        </td>
                </tr>
                <tr>
                        <td>
                        <p>四川大学机器智能实验室停用词库</p>
                        </td>
                        <td>
                        <p style="text-align: justify; margin-top: 0; margin-bottom: 0;">scu_stopwords.txt</p>
                        </td>
                </tr>
        </tbody>
</table>

<p>选择&ldquo;百度停用词表&rdquo;,并且直接调用jieba中获取关键词的函数textrank、extract_tags与我们选出的高频词进行比较。</p>

<p></p>

<p>可以看出,重合的内容有一些,比如:&ldquo;公爵&rdquo;(果然安德烈才是真主角),更多的是不同关键字,jieba选取关键词的方法不明,不过可能不是简单粗暴的选取出现频率最高的词做关键词。</p>

<p>另外,感觉单板电脑性能比起笔记本来说,还是太慢了,在电脑上执行同样代码,只是秒级到十秒级,依然拿树莓派来做比较,手边的树莓派4同样在python2上安装jieba。同样代码进行测试:</p>

<p></p>

<p>比较上述两个结果,发现树莓派4b做同样的工作只需要一小半的时间(71/177、174/466、16/34),这与我们之前用圆周率测试的结果MYS-8MMQ6-8E2D-180-C仅略弱于树莓派4b(参看:https://bbs.eeworld.com.cn/thread-1175554-1-1.html)不太一样。</p>

<p>另外,在MYS-8MMQ6-8E2D-180-C运行结果中的&ldquo;东西:530&rdquo;很奇怪的变成了&ldquo;:11679&rdquo;不知道是不是编码错误。</p>

<p>&nbsp;</p>

<p>&nbsp;</p>

<p></p>
</div><script>                                        var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;"   style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
                                       
                                        if(parseInt(discuz_uid)==0){
                                                                                                (function($){
                                                        var postHeight = getTextHeight(400);
                                                        $(".showpostmsg").html($(".showpostmsg").html());
                                                        $(".showpostmsg").after(loginstr);
                                                        $(".showpostmsg").css({height:postHeight,overflow:"hidden"});
                                                })(jQuery);
                                        }                </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

soso 发表于 2021-8-25 09:36

<p>嘿嘿 挺好玩的。</p>

Jacktang 发表于 2021-8-25 09:42

<p>圆周率测试米尔MYS-8MMX仅略弱于树莓派4b,这个是什么原因</p>

tobot 发表于 2021-8-25 14:58

Jacktang 发表于 2021-8-25 09:42
圆周率测试米尔MYS-8MMX仅略弱于树莓派4b,这个是什么原因

<p>看我帖子啊(尽管有些图片被吃掉了,有时间我重测补一下),测出来结果就是这样</p>

freebsder 发表于 2021-8-25 17:02

<p>是不是SD卡的影响?SD卡的系统读取确实慢很多。</p>

tobot 发表于 2021-8-25 22:04

freebsder 发表于 2021-8-25 17:02
是不是SD卡的影响?SD卡的系统读取确实慢很多。

<p>不是,放在mmc里面。</p>

<p>树莓的是sd卡,但还是很快。</p>

<p>而且我在代码中计算时间起点的时候,已经将文本文件读到ddr了,没有计算读取文本的时间。</p>

freebsder 发表于 2021-8-26 17:08

tobot 发表于 2021-8-25 22:04
不是,放在mmc里面。

树莓的是sd卡,但还是很快。

而且我在代码中计算时间起点的时候,已经将文本 ...

<p>我之前用过不同速度的sd卡,对系统整体影响是体感能感觉的大。高速sd刷命令是刷刷刷的,速度慢的敲了回车还要明显等一下才执行。</p>

tobot 发表于 2021-8-26 17:15

freebsder 发表于 2021-8-26 17:08
我之前用过不同速度的sd卡,对系统整体影响是体感能感觉的大。高速sd刷命令是刷刷刷的,速度慢的敲了回车 ...

<p>是的,我以前专门在pdd上买了不同厂商的sd卡(估计都是水货)做过读写测试。。。</p>

freebsder 发表于 2021-8-26 17:20

tobot 发表于 2021-8-26 17:15
是的,我以前专门在pdd上买了不同厂商的sd卡(估计都是水货)做过读写测试。。。

<p>pdd。。。估计不是慢,那是卡了。</p>
页: [1]
查看完整版本: 【米尔MYS-8MMX】米尔MYS-8MMQ6-8E2D-180-C应用二——NLP初探