统计学基础知识 统计学基础知识有哪些?看这一篇就够了
扫码领文末【高清地图统计基础知识】
一个
什么是数据描述的统计分析
简单来说,描述性统计分析使用几个关键数字来描述数据集的总体情况:。
常用来描述数据集的指标有四个:均值四分位数标准差标准分,可以用来分析数据频率、数据集中趋势、数据离散程度、数据分布以及一些基本的统计图形。
通常我们在获取一个数据集的时候,会先对获取的数据进行清理,组织成业务需要的新数据,然后对新数据进行描述性统计分析。常用的分析工具自带Excel,加载Excel后即可使用。
2
描述统计分析的常用指标
1.平均值
平均值容易受到极值的影响。当数据集中出现极值时,得到的均值结果会有较大的偏差。
2.中位数:
当数据从小到大排列时,中间的数据是中位数。
当数据个数为奇数时,中位数为中间数。如果有n个数字,中间数字的位置是/2。当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法为/2。中位数不受极值影响,所以对极值缺乏敏感性。
3.方式
数据中出现频率最高的数字,即出现频率最高的值。可能有多种模式,不能用于数值数据,也可以用于非数值数据,不受极值影响。
4.非常穷
Range = maximum-minimum,这是一个描述数据分散程度的量。范围描述数据的范围,但不能描述其分布状态。而且它对异常值很敏感。异常值的出现使得数据集的范围具有误导性。
5、四分位数
数据从小到大排列,分成四等份。三个分界点的值称为四分位数。四分位数分为上四分位数、下四分位数和中间四分位数作为中位数。四分位数很容易识别异常值。
上下边缘之外的数据通常被认为是异常值。
6.标准偏差
标准差,也称为均方误差,是每个数据偏离平均值的距离的平均值,它是偏离平均值的平方和的平方根,用σ表示。标准差是方差的算术平方根。标准差可以反映数据集的离散程度。
标准差越大,波动越大。如果平均值相同,则标准差可能不相同。
标准差可以反映平均值不能反映的东西.
Excel有STDEV和STDEVP四个函数,STDEVA、STDEVPA,分别代表样本标准差和总体标准差;样本标准差包括逻辑值运算,总体标准差包括逻辑值运算
计算方法的差异如下:
样本标准偏差=) 2
总体标准偏差=)2。
函数的Excel分解:
1)stdev函数可以分解为:
stdev= sqrt/-1))
2)stdevp函数可以分解为:
stdev= sqrt/))
同样,stdeva和stdevpa也有相同的分解方法。
7.标准分数
标准分数也称为标准差的标准化值。每个数据与平均值有多少标准差?
标准分布也称为郑泰分布。
在切比雪夫定理2.0的正态分布中,至少有68%的数据在平均值的一个标准差以内。在正态分布中,至少95%的数据在平均值的2个标准差之内。在正态分布中,至少99.8%的数据在平均值的3个标准差以内。
三
统计概率思维
概率思维:
1.如果要求几个事件中“至少”有一个会发生,概率加法公式会立即关联;当事件组相互独立时,使用相反事件的概率公式;
2.如果一个事件随着一个完整事件组的发生而发生,则立即认为该事件的发生概率是由总概率公式计算的;如果一个完整的事件组发生,则立即关联该事件的发生概率由总概率公式计算;
3.在求解由几个概率分布已知的独立随机变量组成的系统满足一定关系的问题时,立即与中心极限定理联系起来。
四
统计概率是常用的
贝叶斯定律模型:
它在从证据的积累中推断事物发生的概率方面起着重要的作用。它告诉我们,当我们想要预测一件事情的时候,我们需要基于现有的经验和知识来推断一个先验概率,然后随着新证据的积累来调整这个概率。通过积累证据获得事件概率的整个过程称为贝叶斯分析。
二项式分布:
二项式分布是一种离散的概率分布。二项式代表两种可能的结果,一种叫做成功,另一种叫做失败。每个实验的成功概率和失败概率都是先沟通的,每个实验都是相互独立的。例如,抛硬币。
泊松分布:
主要活动轨迹是某一事件在特定时间或空内发生的次数,一天内中奖的次数,某台机器一个月内损坏的次数等。
描述性统计分析是统计学中比较小的理论知识,但在日常的数据分析中,我们可以快速了解一条数据,并通过科学的图形展示,发现数据规律,预测未知数据。
本文转载分享,侵删