你在这里

数据分析

主标签

  • 平均数的概念

(1)平均数: 一般地,如果有 `n` 个数 `{x_1},{x_2}, \cdots ,{x_n},` 那么,`\overline x  = \frac{1}{n}({x_1} + {x_2} +  \cdots  + {x_n})` 叫做这 `n` 个数的平均数,`\overline x ` 读作“`x` 拔”.

(2)加权平均数: 如果 `n` 个数中,`x_1` 出现 `f_1` 次,`x_2` 出现 `f_2`次,…,`x_k` 出现 `f_k` 次(这里 `{f_1} + {f_2} +  \cdots +{f_k} = n)`,那么,根据平均数的定义,这 `n` 个数的平均数可以表示为 `\overline x  = \frac{{{x_1}{f_1} + {x_2}{f_2} +  \cdots +{x_k}{f_k}}}{n}`,这样求得的平均数 `\overline x ` 叫做加权平均数,其中 `{f_1},{f_2}, \cdots ,{f_k}` 叫做权.

  • 平均数的计算方法

定义法: 当所给数据 `{x_1},{x_2}, \cdots ,{x_n},` 比较分散时,一般选用定义公式:`\overline x  = \frac{1}{n}({x_1} + {x_2} +  \cdots  + {x_n})`;

加权平均数法:当所给数据重复出现时,一般选用加权平均数公式:`\overline x  = \frac{{{x_1}{f_1} + {x_2}{f_2} +  \cdots {x_k}{f_k}}}{n}`,其中 `\overline x  = \frac{{{x_1}{f_1} + {x_2}{f_2} +  \cdots {x_k}{f_k}}}{n}`.

新数据法:当所给数据都在某一常数 `a` 的上下波动时,一般选用简化公式:`\overline x  = \overline {x'}  + a`. 其中,常数 `a` 通常取接近这组数据平均数的较“整”的数,`x{'_1} = {x_1} - a`,`x{'_2} = {x_2} - a`,…,`x{'_n} = {x_n} - a`. `\overline {x'}  = \frac{1}{n} (x{'_1} + x{'_2} +  \cdots  + x{'_n})` 是新数据的平均数(通常把 `{x_1},{x_2}, \cdots ,{x_n},` 叫做原数据, `x{'_1},x{'_2}, \cdots ,x{'_n}`, 叫做新数据).

  • 算术平均数与加权平均数的区别与联系

联系:都是平均数,算术平均数是加权平均数的一种特殊形式(它特殊在各项的权相等,均为1).

区别:算术平均数就是简单的把所有数加起来然后除以个数. 而加权平均数是指各个数所占的比重不同,按照相应的比例把所有数乘以权值再相加,最后除以总权值.

(1)总体: 所有考察对象的全体.

(2)个体: 总体中每一个考察对象叫个体.

(3)样本: 从总体中抽取的一部分个体叫做总体的样本.

(4)样本容积: 样本中个体的数目叫做样本容量.

(5)样本平均数: 样本中所有个体的平均数叫做样本平均数.

(6)总体平均数: 总体中所有个体的平均数叫做总体平均数,在统计中,通常用样本平均数估计总体平均数.

  • 众数的概念

众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.(注:不是唯一的,可存在多个)

  • 中位数的概念

中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.

注:

①在找中位数的时候一定要把数据按大小依次排列;

②如果 `n` 是奇数,则中位数是第 `\frac{{n + 1}}{2}` 个;若 `n` 是偶数,则中位数处于第 `\frac{n}{2}` 和第 `\frac{n}{2}+1` 个的平均数;

③中位数一般都是唯一的.

  • 极差

极差概念:一组数据中的最大数据与最小数据的差叫做这组数据的极差.

极差意义:能够反映数据的变化范围,是最简单的一种度量数据波动情况的量,极差越大,波动越大.

  • 方差

(1)方差的概念: 在一组数据 `{x_1},{x_2}, \cdots ,{x_n},` 中,各数据与它们的平均数 `\overline x ` 的差的平方的平均数,叫做这组数据的方差。通常用“ `{s^2}` ”表示,即 `{s^2} = \frac{1}{n}[{({x_1} - \overline x )^2} + {({x_2} - \overline x )^2} +  \cdots  + {({x_n} - \overline x )^2}]`.

(2)方差的意义: 衡量数据波动大小的量,方差越大,数据的波动越大;方差越小,数据的波动越小,数据的波动越稳定.

注:如果有 `n` 个数 `{x_1},{x_2}, \cdots ,{x_n}` 的方差为 `{s^2}`,则

①`a{x_1},a{x_2}, \cdots ,a{x_n}` 的方差为 `a^2s^2`;

②`{x_1} + b,{x_2} + b, \cdots ,{x_n} + b`的方差为 `s^2`;

③`a{x_1} + b,a{x_2} + b, \cdots ,a{x_n} + b` 的方差为 `a^2s^2`.

  • 方差的计算

①基本公式: $$ {s^2} = \frac{1}{n}[{({x_1} - \overline x )^2} + {({x_2} - \overline x )^2} +  \cdots  + {({x_n} - \overline x )^2}]; $$

②简化计算公式(Ⅰ): $$ s^2 = \frac{1}{n} [ (x_1^2 + x_2^2 +  \cdots  + x_n^2) - n{\overline x}^2 ] $$也可写成$${s^2} = \frac{1}{n}[(x_1^2 + x_2^2 +  \cdots  + x_n^2)] - {\overline x ^2}$$此公式的记忆方法是:方差等于原数据平方的平均数减去平均数的平方;

③简化计算公式(Ⅱ): \[{s^2} = \frac{1}{n}[({x'_1}^2 + {x'_2}^2 +  \cdots  + {x'_n}^2) - n{{\overline {x'} }^2}]\]

当一组数据中的数据较大时,可以依照简化平均数的计算方法,将每个数据同时减去一个与它们的平均数接近的常数 `a`,得到一组新数据 `x{'_1} = {x_1} - a`,`x{'_2} = {x_2} - a`,…,`x{'_n} = {x_n} - a`,那么,$${s^2} = \frac{1}{n}[({x'_1}^2 + {x'_2}^2 +  \cdots  + {x'_n}^2) - n{{\overline {x'} }^2}]$$此公式的记忆方法是:方差等于新数据平方的平均数减去新数据平均数的平方.

新数据法:原数据 `{x_1},{x_2}, \cdots ,{x_n},` 的方差与新数据 `x{'_1} = {x_1} - a`,`x{'_2} = {x_2} - a`,…,`x{'_n} = {x_n} - a`的方差相等,也就是说,根据方差的基本公式,求得 `x{'_1},x{'_2}, \cdots ,x{'_n},` 的方差就等于原数据的方差.

  • 标准差

标准差的定义与计算: 方差的算数平方根叫做这组数据的标准差,用“s”表示,即 $$s = \sqrt {{s^2}}  = \sqrt {\frac{1}{n}[{{({x_1} - \overline x )}^2} + {{({x_2} - \overline x )}^2} +  \cdots  + {{({x_n} - \overline x )}^2}]}.$$

  • 方差与标准差的意义