《深度学习的数学——使用Python语言》用于衡量变化的统计量
<div class='showpostmsg'><p>有一个人初学射箭。他向靶心射出10支箭,其中8支中靶子,2支完全射偏,击中的8支箭均匀地分散在靶心的周围。另一个人(专业射手)也射出10支箭,全部击中靶子,并且每支箭都距离靶很近。考虑这两个人射中的平均位置。由于专业射手全部击中靶子且每支箭都在靶心附近,因此平增多下来,他的成绩接近靶心位置。初学者虽然没有命中一次靶心,但是他为他射的箭刚好几乎对称地分散在靶心四周,所以平均下来,他的成绩也在靶心附近。</p><p>然而,初学者射出的箭分散在靶心四周,它们的位变化很大。专业射手射出的箭则紧密地聚集在一起,它们的位置变化很小。对这种变化幅度进行量化是理解和描述数据集的一种有效方式,下面让我们看看具体如何才能做这一点。</p>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容,请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';
if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script> <p>1、离差和方差</p>
<p>衡量数据集变化的方式之一是找到极差,极差指的是数据集中最大值和最小值的差。但极差是一种粗粒度的衡量指标,因为它只用到数据集中的极值,而不关心其他数据值。另一种相对好一些的方式是计算数据值与均值距离的平均数,公式为:</p>
<p> 公式中的MD称为平均离差。这是一种很自然的选择,完全符合我们的想法:我们想知道平均来看,每个样本距离均值多远。虽然平均离差在计算上没有什么问题,但我们很少在实践中运用它。其中一个原因与代数和微积分有关。计算离差用的绝对值在数学上会造诸多不便。</p>
<p>2、标准误和标准差</p>
<p>这里还有一个用于衡量变化的指标需要讨论——均值的标准误。让我们回对总体的理解,以便搞明白什么SE,以及如何使用SE。如果我们得到的数据集是来自总体的一个样本集,那么我们可以对这个样本集求样本均值。如果我们重复得到多个样本集,并且计算每一个样本集的样本均值,就会产生一个来自总体的样本均值的集合。这听起来很熟悉,因为这正我们在第3章阐述中心极限定理时使用的方法。在样本均值的集合计算标准差,得到的就是标准误。</p>
<p>标准误就是用样本量开根号对样本的标准差进行了缩放。</p>
<p> </p>
<p>什么时候该用标准差,什么时候该应用标准误:</p>
<p>使用标准差的目的是了解样本围绕均值的分布状况,而使用标准误的目的是衡量样本均值对总体均值的估计精度。从某种意义上说,标准误同时与两个概念有关。首先,标准误与中心极限定理有关,因为中心极限定理告诉我们,来自总体的多个样本集的均值将形成正态分布,而标准误能够控制正态分布的集中度,也就是精度。其次,标准误与大数定律有关,因为大数定律告诉我们,数据规模越大,样本均值越接近总体均值,标准误是对总体均值的更好估计。</p>
<p>从深度学习的角度看,我们可能会使用标准差来描述训练集的特征。假设我们要训练和测试多个模型,由于深度网络在初始化时具有的随机性,我们可以对多个模型关于某指标(如准确率)求平均。在这种情况下,我们有可能除了输出准确率的均值之外,还会输出准确率的标准误。随差我们训练的模型越来越多,我们会更加相信准确率的均值,认为其能够更真实地反映这种模型架构真正所能达到的某种准确性,因而从指标上,我们预期这些模型的准确率的标准误会下降。</p>
<p>梳理一下,这一节讨论了不同的描述性统计量,比如不同的均值(算术平均值、几何平均值、调和平均值)、中位数、标准差以及遇尔才用到的标准误。有了这些,我们就可以开始理解数据了。</p>
页:
[1]