122|7

6939

帖子

11

TA的资源

版主

楼主
 

《深度学习的数学——使用Python语言》统计学学习记录 [复制链接]

 

坏的数据集会导致坏的模型。在建模之前,我们需要对掌握的数据有所了解,然后基于对数据的理解构建有效的数据集,这样构建出来的模型才可能符合我们的预期。了解基础的统计学知识能让我们更好的理解数据。

统计量是根据样本计算的一个数值,用于衡量样本某一方面的特征。在深度学习中,当提到样本时,通常指的是数据集。或许最常用的统计量就是算术均数,又称为均值。数据集的均值是描述整个数据集的单个数值。

这一章中,我将看到各种不同的统计量。作者说:会从数据类型讲起,然后介绍如何利用不同的统计量对数据集的各种特征进行描述。接下来,我也将学习分位数并通过画图来理解其含义。这一章还会讨化导常点和缺失值。由于数据集通常并不完美,因此我们得有办法㓼到异常值,并且要能够处理缺失数据。讨论完异常数据后,本章紧接着讨论变量之间的相关性。最后,作者会在针对假设检验的讨论中结束本章。假设检验结束本章。假设检验要回答的诸如“两组数据有多大可能来自相同的数据生成过程”的问题。假设检验已被广泛应用于科学研究中,包括深度学习。

最新回复

人工智能,大数据的应用需要用到python,学习   详情 回复 发表于 3 天前
点赞 关注(1)
 
 

回复
举报

6939

帖子

11

TA的资源

版主

沙发
 

4.1 数据类型

数据类型有4种:定类数据、定序数据、定距数据和定比数据。

4.1.1 定类数据

定类数据常常又称为类别数据,指的是取值不同且没有排序关系的数据。例如,对于眼睛的颜色,棕色,蓝色和绿色是没有排序关的。

 
 
 

回复

6939

帖子

11

TA的资源

版主

板凳
 

4.1.2 定序数据

对于定序数据,不同取值之间存在排序关系,但是它们之间的差距并没有数学含义。例如如果有一份调查问卷让你选择“强烈不同意”“不同意”“中立”“同意”或“强烈同意”,由明显不同答案之间存在排序关系。但是,我们不能说“同意”是“强烈不同意”的3倍,而只能说“强列不同意”位于“同意”(以及“中立”和“不同意”)的左侧。

定序数据的另一个例子就是人们的受教育程序。如果一个人处于小学三年级水平,另一个人处于小学六年级水平,则我们可以说后者的受教育程度比前者高,但我们不能说后的受教育程序是前者的两倍,因为“两倍的受教育程度“是没有实际意义的。

 
 
 

回复

6939

帖子

11

TA的资源

版主

4
 

4.1.3 定距数据

定距数据之间的差距则有实际的数学含义。例如,如果一杯水的温度是40度,而另一杯水的温度是80度,则我们可以说这两杯水的温差是40度,但我们不能说第二杯水有第一杯水两部的热量,因为华氏度的0度是人为选定的。为了证明这一点,我们可以换一种温度计量单位,如摄氏度。换算后,此时第一杯水的温度约是4.4度,而第二杯水的温度大约是26.7度,显然,不能说因为换了温度计量单,第二杯水的热量马上就变成第一杯热量的差不多6倍。

 
 
 

回复

6939

帖子

11

TA的资源

版主

5
 

4.1.4

定比数据

定比数据之间的差距不仅有实际的数学含义,而且存在真实的零点。高度就是定比数据,因为高为0指就是没有高度。类似地,年龄也是定比数据,因为年龄0指的就是没年龄。但是,如果我们使用新的年龄尺度,并且把一个人近在眼前用选举权的年龄定为0岁,那么年龄就变成了定序数扰,而不再是定比数据。

 

 
 
 

回复

6939

帖子

11

TA的资源

版主

6
 

作者在文指出了,各种数据是可以转换的,定类数据可以转换成定序数据,也可以转换成定距数据、定比数据,图示如下:

 

 
 
 

回复

6939

帖子

11

TA的资源

版主

7
 

4.1.5 在深度学习中使用定类数据

如果数据有定类数据,如颜色的集合(其中包括红色、绿色和蓝色),并且我们想把这些数据作为特征传给深度网络,则需要先对它们进行预处理。前面已经讲过,定类数据是没有排序关系的,所以我们不能简单地将红色、绿色、蓝色分别赋值为1,2,3,因为如果这么做的话,深度网络默认会把它们当成定距数据来理。比如,深度网络会认为蓝色=3,为显然是没有意义的,如果想在深度网络中使用定类数据,则需要把他转换为具有意义的定距数据。这种转换称为独热编码(one-hot encoding).

所谓独热编码,指的是将单个定类变量编码为一个向量,这个向量中的每一维对应定类变量编码为一个向量,这个向量中的每一维对应定类数据的一类取值。对于颜色的例子,单个定类变量将被编码为一个三维向量,其中的每一维对应一种颜色。然后每种颜色只在对应的维度取值为1,而在其他的维度取值为0。

 
 
 

回复

18

帖子

0

TA的资源

一粒金砂(中级)

8
 

人工智能,大数据的应用需要用到python,学习

 
 
 

回复
您需要登录后才可以回帖 登录 | 注册

随便看看
查找数据手册?

EEWorld Datasheet 技术支持

相关文章 更多>>
关闭
站长推荐上一条 1/5 下一条

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 国产芯 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2025 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表