《深度学习的数学——使用Python语言》描述性统计量

lugl4313820 发表于 2025-1-2 09:23

<div class='showpostmsg'><p>当我们得到一个数据集时，该如何理解它呢？有什么办法可以对数据集的特征进行描述，从而让我们在建模之前对它有更好的了呢？</p>

<p>要回答这些问题，我们就需要学习描述性统计量。当得到一个新的数据集时，你首先要做的就是通过计算统计量来描述数据。如果不了解数据集就去建模，那就相当于买二手车时，在没有检查轮胎、试驾或打开引擎检查的情况下就直接成交。</p>

<p>人们对于哪些统计量（如方差、标准差和标准误）。极差和众数也经常被提到。极差是指数据集中最大值和最小值的差，众数测是指数据集中出现频次最大的数。通常情况下，通过观察直方图就可以知道众数在哪里，因为直方图展示了数据分布的形态。</p>

<p> </p>
</div><script> var loginstr = '<div class="locked">查看本帖全部内容，请<a href="javascript:;" style="color:#e60000" class="loginf">登录</a>或者<a href="https://bbs.eeworld.com.cn/member.php?mod=register_eeworld.php&action=wechat" style="color:#e60000" target="_blank">注册</a></div>';

if(parseInt(discuz_uid)==0){
(function($){
var postHeight = getTextHeight(400);
$(".showpostmsg").html($(".showpostmsg").html());
$(".showpostmsg").after(loginstr);
$(".showpostmsg").css({height:postHeight,overflow:"hidden"});
})(jQuery);
} </script><script type="text/javascript">(function(d,c){var a=d.createElement("script"),m=d.getElementsByTagName("script"),eewurl="//counter.eeworld.com.cn/pv/count/";a.src=eewurl+c;m.parentNode.insertBefore(a,m)})(document,523)</script>

lugl4313820 发表于 2025-1-2 09:34

<p>4.2.1 均值和中位数</p>

<p>大多数人在小学阶段就知道怎么计算平均数了：将所有数字相加后除以数字的个数。这是算术平均均，更精确的表述是等权算术平均。如果数据集由一组值构成，如{x0,x1,x2...,xn-1}，则算术平均就是将所有值相加后除以值的总数n。</p>

<p>有时候，如果我们给不同的元素赋予不同的权重；也就是说，它们不应该等权相加。此时我们采用加权平均，而引入了权重。</p>

<p>权重不是数据集的一部分，它们应该来自其地方。</p>

lugl4313820 发表于 2025-1-3 09:23

<p>几何平均：</p>

<p>算术平均值是最常用的均值，然而还有其他的均值，如几何平均值。两个数a和b的几何平均值，就是将这两个数相每乘后开根号。</p>

<p>一般来说，n个正数的几何平均值等于他们相乘后开n次方。</p>

<p>在金融领域，几何平均被用于计算平均增长率。在图像处理领域，几何平均可以作为滤波器来降低信噪。在深度学习领域，几何平均被用于计算马修期相关系（MCC）。MCC是用一评估深度学习模型的一个指标，计算方法是对称为informedness和markedness的指标求几何平均值。</p>

lugl4313820 发表于 2025-1-3 09:26

<p>调和平均</p>

<p>两个数a和b的调和平均值是他们倒数的算术平均值的倒数。</p>

<p>在深度学习中，我们在计算F1指数的时候会用到调和平均值。调和平均值是评价分类器的常用指标。F1指数是召回率和精度的调和平均值。</p>

<p>尽管很常用，但并不建议用F1指数来评价深度学习模型。</p>

lugl4313820 发表于 2025-1-3 09:30

<p>中位数</p>

<p>在讨论有关数据差异的指标之前，我先介绍一个经常被用于描述数据集的统计量——中位数（mediam），它很快就会在本章的后面再次出现。数据集的中位数是指排在中间位置的数，如果将数据集按数值排序，则有一半的数在中位数之前，另一半的数在中位数之后。如果是偶数，则为位于最中间的两个数的算术平均值。</p>

<p> </p>

页: [1]

电子工程世界-论坛's Archiver

《深度学习的数学——使用Python语言》描述性统计量