登录注册
论坛
版主
6950
11
当我们得到一个数据集时,该如何理解它呢?有什么办法可以对数据集的特征进行描述,从而让我们在建模之前对它有更好的了呢?
要回答这些问题,我们就需要学习描述性统计量。当得到一个新的数据集时,你首先要做的就是通过计算统计量来描述数据。如果不了解数据集就去建模,那就相当于买二手车时,在没有检查轮胎、试驾或打开引擎检查的情况下就直接成交。
人们对于哪些统计量(如方差、标准差和标准误)。极差和众数也经常被提到。极差是指数据集中最大值和最小值的差,众数测是指数据集中出现频次最大的数。通常情况下,通过观察直方图就可以知道众数在哪里,因为直方图展示了数据分布的形态。
扫一扫,分享给好友
4.2.1 均值和中位数
大多数人在小学阶段就知道怎么计算平均数了:将所有数字相加后除以数字的个数。这是算术平均均,更精确的表述是等权算术平均。如果数据集由一组值构成,如{x0,x1,x2...,xn-1},则算术平均就是将所有值相加后除以值的总数n。
有时候,如果我们给不同的元素赋予不同的权重;也就是说,它们不应该等权相加。此时我们采用加权平均,而引入了权重。
权重不是数据集的一部分,它们应该来自其地方。
几何平均:
算术平均值是最常用的均值,然而还有其他的均值,如几何平均值。两个数a和b的几何平均值,就是将这两个数相每乘后开根号。
一般来说,n个正数的几何平均值等于他们相乘后开n次方。
在金融领域,几何平均被用于计算平均增长率。在图像处理领域,几何平均可以作为滤波器来降低信噪。在深度学习领域,几何平均被用于计算马修期相关系(MCC)。MCC是用一评估深度学习模型的一个指标,计算方法是对称为informedness和markedness的指标求几何平均值。
调和平均
两个数a和b的调和平均值是他们倒数的算术平均值的倒数。
在深度学习中,我们在计算F1指数的时候会用到调和平均值。调和平均值是评价分类器的常用指标。F1指数是召回率和精度的调和平均值。
尽管很常用,但并不建议用F1指数来评价深度学习模型。
中位数
在讨论有关数据差异的指标之前,我先介绍一个经常被用于描述数据集的统计量——中位数(mediam),它很快就会在本章的后面再次出现。数据集的中位数是指排在中间位置的数,如果将数据集按数值排序,则有一半的数在中位数之前,另一半的数在中位数之后。如果是偶数,则为位于最中间的两个数的算术平均值。
发表回复 回帖后跳转到最后一页
EEWorld Datasheet 技术支持
查看 »