《深度学习的数学——使用Python语言》描述性统计量
<div class='showpostmsg'><p>当我们得到一个数据集时,该如何理解它呢?有什么办法可以对数据集的特征进行描述,从而让我们在建模之前对它有更好的了呢?</p><p>要回答这些问题,我们就需要学习描述性统计量。当得到一个新的数据集时,你首先要做的就是通过计算统计量来描述数据。如果不了解数据集就去建模,那就相当于买二手车时,在没有检查轮胎、试驾或打开引擎检查的情况下就直接成交。</p>
<p>人们对于哪些统计量(如方差、标准差和标准误)。极差和众数也经常被提到。极差是指数据集中最大值和最小值的差,众数测是指数据集中出现频次最大的数。通常情况下,通过观察直方图就可以知道众数在哪里,因为直方图展示了数据分布的形态。</p>
<p> </p>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script> <p>4.2.1 均值和中位数</p>
<p>大多数人在小学阶段就知道怎么计算平均数了:将所有数字相加后除以数字的个数。这是算术平均均,更精确的表述是等权算术平均。如果数据集由一组值构成,如{x0,x1,x2...,xn-1},则算术平均就是将所有值相加后除以值的总数n。</p>
<p>有时候,如果我们给不同的元素赋予不同的权重;也就是说,它们不应该等权相加。此时我们采用加权平均,而引入了权重。</p>
<p>权重不是数据集的一部分,它们应该来自其地方。</p>
<p>几何平均:</p>
<p>算术平均值是最常用的均值,然而还有其他的均值,如几何平均值。两个数a和b的几何平均值,就是将这两个数相每乘后开根号。</p>
<p>一般来说,n个正数的几何平均值等于他们相乘后开n次方。</p>
<p>在金融领域,几何平均被用于计算平均增长率。在图像处理领域,几何平均可以作为滤波器来降低信噪。在深度学习领域,几何平均被用于计算马修期相关系(MCC)。MCC是用一评估深度学习模型的一个指标,计算方法是对称为informedness和markedness的指标求几何平均值。</p>
<p>调和平均</p>
<p>两个数a和b的调和平均值是他们倒数的算术平均值的倒数。</p>
<p>在深度学习中,我们在计算F1指数的时候会用到调和平均值。调和平均值是评价分类器的常用指标。F1指数是召回率和精度的调和平均值。</p>
<p>尽管很常用,但并不建议用F1指数来评价深度学习模型。</p>
<p>中位数</p>
<p>在讨论有关数据差异的指标之前,我先介绍一个经常被用于描述数据集的统计量——中位数(mediam),它很快就会在本章的后面再次出现。数据集的中位数是指排在中间位置的数,如果将数据集按数值排序,则有一半的数在中位数之前,另一半的数在中位数之后。如果是偶数,则为位于最中间的两个数的算术平均值。</p>
<p> </p>
页:
[1]