这本书最大的亮点并不是简单地讲解数学知识,而是将数学知识与深度学习紧密结合。按照 概率论 -> 线性代数 -> 微积分 的顺序,每一部分内容都融入了深度学习的实际应用,让我们更清楚这些数学知识在深度学习中的作用和具体用法。
在构建深度学习模型之前,我们必须充分理解并构建数据集。优质的数据集是训练出优质模型的前提。基础统计学知识可以帮助我们更好地理解和分析数据,从而提升数据集的质量,为模型打下扎实的基础。
数据类型
数据类型可以分为四种,每种类型的特点各不相同,但它们之间又存在一定联系。在处理实际问题时,了解数据类型可以避免不必要的运算错误。具体分类如下:
- 定类数据:又称类别数据,指的是取值不同且没有排序关系的数据。
- 定序数据:不同取值之间存在排序关系,但他们之间的差距没有数学含义。
- 定距数据:数据之间有实际的数学含义。
- 定比数据:数据之间的差距不仅有实际的数学含义,而且还存在真实的零点。
可以看到不同数据类型之间具有不同的特点,但是又存在一定的联系,书中已经给我们绘图说明了它们之间的联系与区别。
定距数据与定比数据的区别
针对定距数据和定比数据,它们之间的区别在于是否存在真实的零点。书中给出的例子如下
定距数据:华氏温度、摄氏温度。(数据差距有实际数学含义)
定比数据:身高、年龄、开尔文温度。(具有绝对零点)
关于绝对零点这个概念书中并没有给出详细的解释,我根据书中给出的例子的理解是:绝对零点意味着该点表示完全没有所测量的属性或量。换句话说,在定比尺度中,0 表示“无”或“不存在”,而不是简单的基准点或起始点。
定类数据的使用
在深度学习特别是分类问题中,我们常用到的数据类型时定类数据,比如说颜色分类:红色、黄色、绿色。为了把这些数据作为特征传输给深度网络,我们需要先对其进行预处理。由于定类数据没有排序关系,因此不能简单地将其赋值为123。而是需要将其转换为具有意义的定距数据,即独热编码。
在Keras等组件中,类别数据标签默认会被预处理为独热码,这样在计算损失函数时,网络的输出和编码后的类别标签都是向量,且计算起来会更方便。
之前在训练图片分类网络时就有这个疑惑,好奇为什么一定要将类别转换为独热编码的形式,在这本书的数据类型部分找到了答案。
描述性统计量
此外,为了理解数据以及了解数据的形态和分布,需要使用统计量来描述数据。