《深度学习的数学——使用Python语言》描述性统计量

lugl4313820

《深度学习的数学——使用Python语言》描述性统计量 [复制链接]

当我们得到一个数据集时，该如何理解它呢？有什么办法可以对数据集的特征进行描述，从而让我们在建模之前对它有更好的了呢？

要回答这些问题，我们就需要学习描述性统计量。当得到一个新的数据集时，你首先要做的就是通过计算统计量来描述数据。如果不了解数据集就去建模，那就相当于买二手车时，在没有检查轮胎、试驾或打开引擎检查的情况下就直接成交。

人们对于哪些统计量（如方差、标准差和标准误）。极差和众数也经常被提到。极差是指数据集中最大值和最小值的差，众数测是指数据集中出现频次最大的数。通常情况下，通过观察直方图就可以知道众数在哪里，因为直方图展示了数据分布的形态。

lugl4313820

4.2.1 均值和中位数

大多数人在小学阶段就知道怎么计算平均数了：将所有数字相加后除以数字的个数。这是算术平均均，更精确的表述是等权算术平均。如果数据集由一组值构成，如{x0,x1,x2...,xn-1}，则算术平均就是将所有值相加后除以值的总数n。

有时候，如果我们给不同的元素赋予不同的权重；也就是说，它们不应该等权相加。此时我们采用加权平均，而引入了权重。

权重不是数据集的一部分，它们应该来自其地方。

lugl4313820

几何平均：

算术平均值是最常用的均值，然而还有其他的均值，如几何平均值。两个数a和b的几何平均值，就是将这两个数相每乘后开根号。

一般来说，n个正数的几何平均值等于他们相乘后开n次方。

在金融领域，几何平均被用于计算平均增长率。在图像处理领域，几何平均可以作为滤波器来降低信噪。在深度学习领域，几何平均被用于计算马修期相关系（MCC）。MCC是用一评估深度学习模型的一个指标，计算方法是对称为informedness和markedness的指标求几何平均值。

lugl4313820

调和平均

两个数a和b的调和平均值是他们倒数的算术平均值的倒数。

在深度学习中，我们在计算F1指数的时候会用到调和平均值。调和平均值是评价分类器的常用指标。F1指数是召回率和精度的调和平均值。

尽管很常用，但并不建议用F1指数来评价深度学习模型。

lugl4313820

中位数

在讨论有关数据差异的指标之前，我先介绍一个经常被用于描述数据集的统计量——中位数（mediam），它很快就会在本章的后面再次出现。数据集的中位数是指排在中间位置的数，如果将数据集按数值排序，则有一半的数在中位数之前，另一半的数在中位数之后。如果是偶数，则为位于最中间的两个数的算术平均值。