《深度学习的数学——使用Python语言》统计学学习记录
<div class='showpostmsg'><p>坏的数据集会导致坏的模型。在建模之前,我们需要对掌握的数据有所了解,然后基于对数据的理解构建有效的数据集,这样构建出来的模型才可能符合我们的预期。了解基础的统计学知识能让我们更好的理解数据。</p><p>统计量是根据样本计算的一个数值,用于衡量样本某一方面的特征。在深度学习中,当提到样本时,通常指的是数据集。或许最常用的统计量就是算术均数,又称为均值。数据集的均值是描述整个数据集的单个数值。</p>
<p>这一章中,我将看到各种不同的统计量。作者说:会从数据类型讲起,然后介绍如何利用不同的统计量对数据集的各种特征进行描述。接下来,我也将学习分位数并通过画图来理解其含义。这一章还会讨化导常点和缺失值。由于数据集通常并不完美,因此我们得有办法㓼到异常值,并且要能够处理缺失数据。讨论完异常数据后,本章紧接着讨论变量之间的相关性。最后,作者会在针对假设检验的讨论中结束本章。假设检验结束本章。假设检验要回答的诸如“两组数据有多大可能来自相同的数据生成过程”的问题。假设检验已被广泛应用于科学研究中,包括深度学习。</p>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script> <p>4.1 数据类型</p>
<p>数据类型有4种:定类数据、定序数据、定距数据和定比数据。</p>
<p>4.1.1 定类数据</p>
<p>定类数据常常又称为类别数据,指的是取值不同且没有排序关系的数据。例如,对于眼睛的颜色,棕色,蓝色和绿色是没有排序关的。</p>
<p>4.1.2 定序数据</p>
<p>对于定序数据,不同取值之间存在排序关系,但是它们之间的差距并没有数学含义。例如如果有一份调查问卷让你选择“强烈不同意”“不同意”“中立”“同意”或“强烈同意”,由明显不同答案之间存在排序关系。但是,我们不能说“同意”是“强烈不同意”的3倍,而只能说“强列不同意”位于“同意”(以及“中立”和“不同意”)的左侧。</p>
<p>定序数据的另一个例子就是人们的受教育程序。如果一个人处于小学三年级水平,另一个人处于小学六年级水平,则我们可以说后者的受教育程度比前者高,但我们不能说后的受教育程序是前者的两倍,因为“两倍的受教育程度“是没有实际意义的。</p>
<p>4.1.3 定距数据</p>
<p>定距数据之间的差距则有实际的数学含义。例如,如果一杯水的温度是40度,而另一杯水的温度是80度,则我们可以说这两杯水的温差是40度,但我们不能说第二杯水有第一杯水两部的热量,因为华氏度的0度是人为选定的。为了证明这一点,我们可以换一种温度计量单位,如摄氏度。换算后,此时第一杯水的温度约是4.4度,而第二杯水的温度大约是26.7度,显然,不能说因为换了温度计量单,第二杯水的热量马上就变成第一杯热量的差不多6倍。</p>
<p>4.1.4</p>
<p>定比数据</p>
<p>定比数据之间的差距不仅有实际的数学含义,而且存在真实的零点。高度就是定比数据,因为高为0指就是没有高度。类似地,年龄也是定比数据,因为年龄0指的就是没年龄。但是,如果我们使用新的年龄尺度,并且把一个人近在眼前用选举权的年龄定为0岁,那么年龄就变成了定序数扰,而不再是定比数据。</p>
<p> </p>
<p>作者在文指出了,各种数据是可以转换的,定类数据可以转换成定序数据,也可以转换成定距数据、定比数据,图示如下:</p>
<p> </p>
<p>4.1.5 在深度学习中使用定类数据</p>
<p>如果数据有定类数据,如颜色的集合(其中包括红色、绿色和蓝色),并且我们想把这些数据作为特征传给深度网络,则需要先对它们进行预处理。前面已经讲过,定类数据是没有排序关系的,所以我们不能简单地将红色、绿色、蓝色分别赋值为1,2,3,因为如果这么做的话,深度网络默认会把它们当成定距数据来理。比如,深度网络会认为蓝色=3,为显然是没有意义的,如果想在深度网络中使用定类数据,则需要把他转换为具有意义的定距数据。这种转换称为独热编码(one-hot encoding).</p>
<p>所谓独热编码,指的是将单个定类变量编码为一个向量,这个向量中的每一维对应定类变量编码为一个向量,这个向量中的每一维对应定类数据的一类取值。对于颜色的例子,单个定类变量将被编码为一个三维向量,其中的每一维对应一种颜色。然后每种颜色只在对应的维度取值为1,而在其他的维度取值为0。</p>
<p>人工智能,大数据的应用需要用到python,学习</p>
页:
[1]