lugl4313820 发表于 2024-12-31 10:47

《深度学习的数学——使用Python语言》统计学学习记录

<div class='showpostmsg'><p>坏的数据集会导致坏的模型。在建模之前,我们需要对掌握的数据有所了解,然后基于对数据的理解构建有效的数据集,这样构建出来的模型才可能符合我们的预期。了解基础的统计学知识能让我们更好的理解数据。</p>

<p>统计量是根据样本计算的一个数值,用于衡量样本某一方面的特征。在深度学习中,当提到样本时,通常指的是数据集。或许最常用的统计量就是算术均数,又称为均值。数据集的均值是描述整个数据集的单个数值。</p>

<p>这一章中,我将看到各种不同的统计量。作者说:会从数据类型讲起,然后介绍如何利用不同的统计量对数据集的各种特征进行描述。接下来,我也将学习分位数并通过画图来理解其含义。这一章还会讨化导常点和缺失值。由于数据集通常并不完美,因此我们得有办法㓼到异常值,并且要能够处理缺失数据。讨论完异常数据后,本章紧接着讨论变量之间的相关性。最后,作者会在针对假设检验的讨论中结束本章。假设检验结束本章。假设检验要回答的诸如&ldquo;两组数据有多大可能来自相同的数据生成过程&rdquo;的问题。假设检验已被广泛应用于科学研究中,包括深度学习。</p>
</div><script>                                        var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;"   style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
                                       
                                        if(parseInt(discuz_uid)==0){
                                                                                                (function($){
                                                        var postHeight = getTextHeight(400);
                                                        $(".showpostmsg").html($(".showpostmsg").html());
                                                        $(".showpostmsg").after(loginstr);
                                                        $(".showpostmsg").css({height:postHeight,overflow:"hidden"});
                                                })(jQuery);
                                        }                </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

lugl4313820 发表于 2024-12-31 10:50

<p>4.1 数据类型</p>

<p>数据类型有4种:定类数据、定序数据、定距数据和定比数据。</p>

<p>4.1.1 定类数据</p>

<p>定类数据常常又称为类别数据,指的是取值不同且没有排序关系的数据。例如,对于眼睛的颜色,棕色,蓝色和绿色是没有排序关的。</p>

lugl4313820 发表于 2024-12-31 10:54

<p>4.1.2 定序数据</p>

<p>对于定序数据,不同取值之间存在排序关系,但是它们之间的差距并没有数学含义。例如如果有一份调查问卷让你选择&ldquo;强烈不同意&rdquo;&ldquo;不同意&rdquo;&ldquo;中立&rdquo;&ldquo;同意&rdquo;或&ldquo;强烈同意&rdquo;,由明显不同答案之间存在排序关系。但是,我们不能说&ldquo;同意&rdquo;是&ldquo;强烈不同意&rdquo;的3倍,而只能说&ldquo;强列不同意&rdquo;位于&ldquo;同意&rdquo;(以及&ldquo;中立&rdquo;和&ldquo;不同意&rdquo;)的左侧。</p>

<p>定序数据的另一个例子就是人们的受教育程序。如果一个人处于小学三年级水平,另一个人处于小学六年级水平,则我们可以说后者的受教育程度比前者高,但我们不能说后的受教育程序是前者的两倍,因为&ldquo;两倍的受教育程度&ldquo;是没有实际意义的。</p>

lugl4313820 发表于 2024-12-31 10:58

<p>4.1.3 定距数据</p>

<p>定距数据之间的差距则有实际的数学含义。例如,如果一杯水的温度是40度,而另一杯水的温度是80度,则我们可以说这两杯水的温差是40度,但我们不能说第二杯水有第一杯水两部的热量,因为华氏度的0度是人为选定的。为了证明这一点,我们可以换一种温度计量单位,如摄氏度。换算后,此时第一杯水的温度约是4.4度,而第二杯水的温度大约是26.7度,显然,不能说因为换了温度计量单,第二杯水的热量马上就变成第一杯热量的差不多6倍。</p>

lugl4313820 发表于 2024-12-31 11:02

<p>4.1.4</p>

<p>定比数据</p>

<p>定比数据之间的差距不仅有实际的数学含义,而且存在真实的零点。高度就是定比数据,因为高为0指就是没有高度。类似地,年龄也是定比数据,因为年龄0指的就是没年龄。但是,如果我们使用新的年龄尺度,并且把一个人近在眼前用选举权的年龄定为0岁,那么年龄就变成了定序数扰,而不再是定比数据。</p>

<p>&nbsp;</p>

lugl4313820 发表于 2024-12-31 11:04

<p>作者在文指出了,各种数据是可以转换的,定类数据可以转换成定序数据,也可以转换成定距数据、定比数据,图示如下:</p>

<p> &nbsp;</p>

lugl4313820 发表于 2024-12-31 11:12

<p>4.1.5 在深度学习中使用定类数据</p>

<p>如果数据有定类数据,如颜色的集合(其中包括红色、绿色和蓝色),并且我们想把这些数据作为特征传给深度网络,则需要先对它们进行预处理。前面已经讲过,定类数据是没有排序关系的,所以我们不能简单地将红色、绿色、蓝色分别赋值为1,2,3,因为如果这么做的话,深度网络默认会把它们当成定距数据来理。比如,深度网络会认为蓝色=3,为显然是没有意义的,如果想在深度网络中使用定类数据,则需要把他转换为具有意义的定距数据。这种转换称为独热编码(one-hot encoding).</p>

<p>所谓独热编码,指的是将单个定类变量编码为一个向量,这个向量中的每一维对应定类变量编码为一个向量,这个向量中的每一维对应定类数据的一类取值。对于颜色的例子,单个定类变量将被编码为一个三维向量,其中的每一维对应一种颜色。然后每种颜色只在对应的维度取值为1,而在其他的维度取值为0。</p>

qzgiky 发表于 2024-12-31 11:44

<p>人工智能,大数据的应用需要用到python,学习</p>
页: [1]
查看完整版本: 《深度学习的数学——使用Python语言》统计学学习记录