你在这里

统计

主标签

  • 随机抽样

一、简单随机抽样 设一个总体的个数为`N`, 从中逐个不放回的抽取 `n` 个个体作为样本 `(n\leqslant N)`, 如果每次抽取时总体内的各个个体被抽到的机会都相等, 就把这种抽样方法叫做 简单随机抽样(simple random sampling).

常用简单抽样方法:

(1)抽签法(抓阄法)

①给调查对象群体中的每一个对象编号;

②准备抽签的工具,实施抽签;

③对样本中的每一个个体进行测量或调查.

(2)随机数法 利用随机数表、随机数骰子或计算机产生的随机数进行抽样.

 

二、系统抽样 当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做 系统抽样(也称为机械抽样或等距抽样).

系统抽样的步骤:

(1)将总体中的个体编号. 采用随机的方式将总体中的个体编号;

(2)将整个的编号进行分段. 为将整个的编号进行分段,要确定分段的间隔 `k` .当 `\frac{N }{n}` 是整数时,`k=\frac{N}{n}`;当 `\frac{N}{n}` 不是整数时,通过从总体中剔除一些个体使剩下的个体数 `N'`能被 `n` 整除,这时 `k=\frac{N'}{n}`;

(3)确定起始的个体编号. 在第1段用简单随机抽样确定起始的个体边号 `l`;

(4)抽取样本. 按照先确定的规则(常将 `l`加上间隔 `k` )抽取样本:`l,l+k,l+2k,\cdots,l+(n-1)k`.

 

三、分层抽样

分层抽样 一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立的抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法就是 分层抽样(stratified sampling).

分层标准:

(1)以调查所要分析和研究的主要变量或相关的变量作为分层的标准;

(2)以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量;

(3)以那些有明显分层区分的变量作为分层变量.

 

以上三种随机抽样方法总结:

(1)三种抽样方法的共同点都是等概率抽样, 即抽样过程中每个个体被抽取的概率相等, 体现了这三种抽样方法的客观性和公平性. 若总体的个体数位 `N` , 样本容量为 `n` , 则用这三种方法抽样时, 每一个个体被抽到的概率是 `\frac{n}{N}`.

(2)三种抽样方法的联系和区别, 如下表:

类别 共同点 各自特点 相互联系 适用范围
简单随机抽样 抽样过程中每个个体被抽取的概率相等 从总体中逐个抽取 在起始部分抽样时采用简单随机抽样 总体中的个体数较少
  将总体分成几部分, 按事先确定的规则在各部分抽取 总体数中的个体数较多
系统抽样 各层抽样时采用简单随机抽样或系统抽样
分层抽样 将总体分成几层, 分层进行抽取 总体由差异明显的部分组成
  • 用样本估计总体

平均值  `\bar{x}=\frac{1}{n}(x_1+x_2+x_3+\cdots+x_n)`.

标准差  标准差是样本数据到平均数的一种平均距离, 一般用 ` s` 表示.    假设样本数据是 `x_1+x_2+x_3+\cdots+x_n` ~, `\bar{x}` 表示这组数据的平均数.

平均距离  `S=\frac{|x_1-\bar{x}|+|~x_2-\bar{x}|+\cdots+|~x_n-\bar{x}|}{n}`.

标准差一般计算公式  `s=\sqrt{\frac{1}{n} \left[ (x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\right]}`.

  • 变量的相关性

随机变量  随着试验结果变化而变化的变量称为 随机变量(random variable).

回归直线  如果散点图中心点的分布从整体上看大致在一条直线附近, 就称这两个变量之间有线性相关关系, 这条直线叫做 回归直线(regression line).

回归方法  由一个变量的变化去推测另一个变量的变化的方法.

"整体距离"  点`(x_i,~y_i)~~(i=1,2,\cdots,n)` ,  到 `y=bx+a` 的距离和, 可以用 `\begin{matrix} \sum_{i=1}^n | y_i-(bx_i+a)|\end{matrix}` 表示.

一般计算用:  $$Q= (y_1-bx_ 1-a)^2+(y_2-bx_ 2-a)^2+\cdots + (y_n-bx_ n-a)^2~. $$ 其中 `Q` 最小时的 `a, b` 由下列公式给出 $$\begin{cases}\hat b = \dfrac{\sum_{i = 1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i = 1}^n(x_i-\bar{x})^2}=\dfrac{\sum_{i = 1}^n x_i y_i-n \bar{x} \bar{y}}{\sum_{i = 1}^n x_i^2-n \bar{x}^2} \\ \hat a = \bar{y}-\hat{b} \bar{x}~. \end{cases}$$

回归方程为$$\hat y = \hat{b} x+\hat{a}~.$$

最小二乘法  通过求 `Q` 的最小值而得到回归直线的方法, 即使得样本数据的点到回归直线的距离的平方和最小的方法叫做 最小二乘法(method of least square).

  • 独立性检验

`χ^2` 独立性检: `χ^2` 检验是一种无参数的假设检验.

$$χ^2=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}$$

其中 `n=a+b+c+d`.

`P(χ^2≥x_0)` 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
`x_0` 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
  • 回归分析