Tổng hợp kiến thức Lý thuyết xác suất & Thống kê toán

[latexpage] At first, we sample $f(x)$ in the $N$ ($N$ is odd) equidistant points around $x^*$:
\[
f_k = f(x_k),\: x_k = x^*+kh,\: k=-\frac{N-1}{2},\dots,\frac{N-1}{2}
\] where $h$ is some step.
Then we interpolate points $\{(x_k,f_k)\}$ by polynomial
\begin{equation} \label{eq:poly}
P_{N-1}(x)=\sum_{j=0}^{N-1}{a_jx^j}
\end{equation}
Its coefficients $\{a_j\}$ are found as a solution of system of linear equations:
\begin{equation} \label{eq:sys}
\left\{ P_{N-1}(x_k) = f_k\right\},\quad k=-\frac{N-1}{2},\dots,\frac{N-1}{2}
\end{equation}
Here are references to existing equations: (\ref{eq:poly}), (\ref{eq:sys}).
Here is reference to non-existing equation (\ref{eq:unknown}).
LÝ THUYẾT XÁC SUẤT

THỐNG KÊ MÔ TẢ

	Tổng thể (Population)	Mẫu (Sample)
Kích thước (size)	$N$	$n$
Liệt kê giá trị	$(x_1,x_2,...,x_N)$	$(x_1,x_2,...,x_n)$
Trung bình (mean)	$\mu=\frac{\sum_{i=1}^{N}x_i }{N}$	$\bar{x}=\frac{\sum_{i=1}^n x_i}{n}$
Phương sai (variance)	$\sigma^2=\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}$	$s^2=\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}$
Độ lệch chuẩn (standard deviation)	$\sigma = \sqrt{\sigma^2}$	$s=\sqrt{s^2}$
Hệ số biến thiên (Coef. of variation)	$CV=\frac{\sigma}{\mu}\cdot 100\%$	$CV=\frac{s}{\bar{x}} \cdot 100\%$
Tứ phân vị (Quartile)		$Q_1,Q_2,Q_3$
Khoảng tứ phân vị (Interquartile Range)		$IQR=Q_3 - Q_1$
Giá trị chuẩn hóa (Z-score)	$z_i = \frac{x_i-\mu}{\sigma}$	$z_i = \frac{x_i - \bar{x}}{s}$
Hệ số bất đối xứng (Skewness)		$a_3 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^3 / n}{s^3}$
Hệ số nhọn (Kurtorsis)		$a_4 = \frac{\sum_{i=1}^n (x_i -\bar{x})^4/n}{s^4}$ $Kurt = \frac{\sum_{i=1}^n (x_i -\bar{x})^4/n}{s^4} - 3$
Hiệp phương sai (Covariance)	$Cov(X,Y)=\frac{\sum_{i=1}^{N}(x_i-\mu_X)(y_i - \mu_Y)}{N}$	$cov(X,Y)=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}$
Hệ số tương quan (Correlation coef.)	$\rho(X,Y)=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$	$r(X,Y)=\frac{cov(X,Y)}{s_X s_Y}$

CÁC CÔNG THỨC XÁC SUẤT

Xác suất theo định nghĩa cổ điển (Classical definition)	$P(A)=\frac{N_A}{N}$
Xác suất theo định nghĩa thống kê (Statistical definition)	$P(A) \approx \frac{f_A}{n}$ khi $n \to \infty$
Xác suất hai biến cố đối lập (Prob. of complement events)	$P(\bar{A}) + P(A)=1$
Xác suất tích hai biến cố (Prob. of intersection)	$P(A \cdot B) = P(A) \cdot P(B\|A)= P(B) \cdot P(A\|B)$
Xác suất có điều kiện (Conditional probability)	$P(A\|B)=\frac{P(A\cdot B)}{P(B)}$
Hai biến cố độc lập (Independent events)	$P(A\|B)=P(B)$ và $P(B\|A)=P(B)$ $P(A\cdot B)=P(A)\cdot P(B)$
Nhiều biến cố độc lập toàn phần (Totally independent events)	$P \left(\prod_{i=1}^{n} A_i \right) = \prod_{i=1}^{n} P(A_i)$
Xác suất tổng hai biến cố (Prob. of union)	$P(A+B)=P(A)+P(B)-P(A\cdot B)$
Hai biến cố xung khắc (Mutually exclusive events)	$P(A+B)=P(A)+P(B)$
Nhiều biến cố xung khắc (Mutually exclusive events)	$P\left( \sum_{i=1}^{n}A_i \right)=\sum_{i=1}^{n}P(A_i)$
Công thức xác suất đầy đủ (Total probability)	$P(B)=\sum_{i=1}^{n}P(A_i)\cdot P(B\|A_i)$
Công thức Bayes (Bayes’s theorem)	$P(A_i\|B)=\frac{P(B\cdot A_i)}{P(B)}=\frac{P(A_i)\cdot P(B\|A_i)}{\sum_{i=1}^{n}P(A_i)\cdot P(B\|A_i)}$

BIẾN NGẪU NHIÊN

Bảng phân phối xác suất của BNN rời rạc

$X$	$x_1$	$x_2$	$\cdots$	$x_n$
$P(X)$	$p_1$	$p_2$	$\cdots$	$p_n$

$\sum_{i=1}^{n}p_i = 1$

Hàm phân phối xác suất

$F(x)=P(X<x)$

$P(a\leq X<b)=F(b)-F(a)$

Hàm mật độ xác suất của BNN liên tục

$f(x)=F^\prime(x)$

$\int_{-\infty}^{+\infty}f(x)dx=1$

$P(a<X<b)=\int_{a}^{b}f(x)dx=F(b)-F(a)$

Kỳ vọng

$E(X)= \begin{cases} \displaystyle \sum_{i=1}^{n}x_i p_i & \text{ discrete } \\ \displaystyle \int_{-\infty}^{+\infty} x f(x) dx & \text{ continuous } \end{cases}$

Phương sai

$V(X)= E\big[X - E(X) \big]^2 = E(X^2) - \big[E(X) \big]^2$

$E(X^2)= \begin{cases} \displaystyle \sum_{i=1}^{n}x_i^2 p_i & \text{ discrete } \\ \displaystyle \int_{-\infty}^{+\infty} x^2 f(x) dx & \text{ continuous } \end{cases}$

Độ lệch chuẩn

$\sigma = \sqrt{V(X)}$

Mốt

Biến ngẫu nhiên hai chiều rời rạc

$X$ \ $Y$	$y_1$	$y_2$	$\cdots$	$y_m$	$\sum = P(X)$
$x_1$	$p_{11}$	$p_{12}$	$\cdots$	$p_{1m}$	$P(x_1)$
$x_2$	$p_{21}$	$p_{22}$	$\cdots$	$p_{2m}$	$P(x_2)$
$\vdots$	$\vdots$	$\vdots$	$\ddots$	$\vdots$	$\vdots$
$x_n$	$p_{n1}$	$p_{n2}$	$\cdots$	$p_{nm}$	$P(x_n)$
$\sum = P(Y)$	$P(y_1)$	$P(y_2)$	$\cdots$	$P(y_m)$	$1$

Hiệp phương sai	$Cov(X,Y)=E\Big[\big[X - E(X)\big] \big[Y - E(Y) \big] \Big]$ $= E(X \cdot Y) - E(X)\cdot E(Y) = \sum_{i} \sum_{j} x_i y_j p_{ij} - E(X)\cdot E(Y)$
Hệ số tương quan	$\rho(X,Y)=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$
Nếu $X,Y$ độc lập	$Cov(X,Y)= \rho(X,Y)=0$
Tính chất của kì vọng, phương sai Với $c$ là hằng số	Kì vọng	Phương sai
	$E(c)=c$	$V(c)=0$
	$E(X+c)=E(X)+c$	$V(X+c)=V(X)$
	$E(c\cdot X)=c\cdot E(X)$	$V(c\cdot X) = c^2 \cdot V(X)$
	$E(X \pm Y)=E(X)\pm E(Y)$	$V(X\pm Y)= V(X) + V(Y) \pm 2 Cov(X,Y)$
	$E\big(\sum X_i \big)=\sum E(X_i)$	$V\big(\sum X_i \big)=\sum V(X_i)$ nếu các $X_i$ độc lập

PHÂN PHỐI XÁC SUẤT THÔNG DỤNG


Phân phối Không-một Bernoulli: $A(p)$	Công thức tính xác suất	$P(X=x)=p^x (1-p)^{1-x} \quad; \quad x = 0,1$
Phân phối Không-một Bernoulli: $A(p)$	Tham số	$E(X)=p \quad ; \quad V(X)=p(1-p)$
Phân phối Nhị thức Binomial: $B(n,p)$	Công thức tính xác suất	$P(X=x)=C_n^xp^x(1-p)^{n-x}\quad;\quad x=0,1,2,...,n$
Phân phối Nhị thức Binomial: $B(n,p)$	Tham số	$E(X)=np \quad ; \quad V(X)=np(1-p)$
Phân phối Poisson $P(\lambda)$	Công thức tính xác suất	$P(X=x)=\frac{\lambda^xe^{-\lambda}}{x!} \quad; \quad x=0,1,2,...$
Phân phối Poisson $P(\lambda)$	Tham số	$E(X)=\lambda \quad ; \quad V(X)=\lambda$
Phân phối Đều Uniform: $U(a,b)$	Hàm mật độ	$f(x)= \begin{cases} \dfrac{1}{b-a} & : x \in (a,b) \\ \quad 0 & : x \notin (a,b) \end{cases}$
Phân phối Đều Uniform: $U(a,b)$	Tham số	$E(X)= \frac{a+b}{2} \quad ; \quad V(X)= \frac{(b-a)^2}{12}$
Phân phối Chuẩn Normal: $N(\mu, \sigma^2)$	Hàm mật độ	$f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \quad; \quad x \in \mathbb{R}$
	Tham số	$E(X)=\mu \quad ; \quad V(X) = \sigma^2$
	Chuẩn hóa	$f(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}} \quad; \quad z \in \mathbb{R}$
	Công thức xác suất	$P(a<X<b) = P\left( \frac{a-\mu}{\sigma} < Z < \frac{b-\mu}{\sigma} \right)$ $P(\|X-\mu\| < \varepsilon) = 2 \cdot P\left(Z < \frac{\varepsilon}{\sigma} \right)$
	Quy tắc	$P(\mu-\sigma <X<\mu+\sigma)=0.6826$ $P(\mu-2\sigma <X<\mu+2\sigma)=0.9544$ $P(\mu-3\sigma <X<\mu+3\sigma)=0.9974$
	Giá trị tới hạn	$z_\alpha : P(Z >z_\alpha ) = \alpha$
Phân phối Khi-bình phương Chi-squared: $\chi^2(n)$	Giá trị tới hạn	$\chi^{2(n)}_\alpha : P \Big[\chi^2(n) > \chi^{2(n)}_\alpha \Big] = \alpha$
Phân phối Student $T(n)$	Giá trị tới hạn	$t^{(n)}_{\alpha} : P\Big[T(n) > t^{(n)}_{\alpha} \Big] = \alpha$
Phân phối Fisher $F(n_1,n_2)$	Giá trị tới hạn	$f^{(n_1,n_2)}_\alpha : P\Big[F(n_1,n_2) > f^{(n_1,n_2)}_\alpha \Big] = \alpha$

MẪU NGẪU NHIÊN

Mẫu kích thước $n$	$W_n =(X_1,X_2,...,X_n)$
Trung bình mẫu (sample mean)	$\bar{X}=\frac{\sum_{i=1}^{n}X_i}{n}$ $E(\bar{X})=\mu$ ; $V(\bar{X})=\frac{\sigma^2}{n}$	$\bar{X}\sim N\Big(\mu, \frac{\sigma^2}{n}\Big)$ ; $\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim T^{(n-1)}$ khi $X \sim N(\mu,\sigma^2)$ hoặc khi $n$ đủ lớn
Phương sai mẫu (sample variance)	$S^2=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$ $E(S^2)=\sigma^2$	$\frac{(n-1)S^2}{\sigma^2} \sim \chi^{2(n-1)}$ khi $X \sim N(\mu,\sigma^2)$
Tần suất mẫu (sample proportion)	$\hat{p}=\frac{X_A}{n}$ $E(\hat{p})=p$ ; $V(\hat{p})=\frac{p(1-p)}{n}$	$\hat{p} \sim N\Big(p, \frac{p(1-p)}{n} \Big)$ khi $n$ đủ lớn
Hiệp phương sai mẫu (sample covariance)	$Cov(X,Y)=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}$
Hệ số tương quan mẫu (sample correlation)	$R_{X,Y}=\frac{Cov(X,Y)}{S_X S_Y}$

ƯỚC LƯỢNG ĐIỂM

Tính chất ước lượng điểm	Không chệch (unbiasness)	$E(\hat{\theta}) = \theta$
Tính chất ước lượng điểm	Hiệu quả (efficient)	không chệch và $V(\hat{\theta})$ nhỏ nhất
Ước lượng hợp lý tối đa (maximum likelihood estimator)	Hàm hợp lý	$L(\theta) = \begin{cases} \prod_i P(x_i) &: \text{discrete} \\ \prod_i f(x_i) &: \text{continous} \end{cases}$
Ước lượng hợp lý tối đa (maximum likelihood estimator)	Tối đa hóa hàm hợp lý hoặc logarit hàm hợp lý	$L(\theta) \rightarrow max$ hoặc $\ln L(\theta) \rightarrow max$

KHOẢNG TIN CẬY (Confidence Interval)

Trung bình tổng thể khi không biết $\sigma$	Hai phía	$\bar{X}-t^{(n-1)}_{\alpha/2}\frac{S}{\sqrt{n}}<\mu< \bar{X}+t^{(n-1)}_{\alpha/2}\frac{S}{\sqrt{n}}$ hay $\bar{X} \pm \varepsilon$	$n=\Big( t_{\alpha/2}^{(n-1)} \frac{S}{\varepsilon} \Big)^2$
	Tối đa	$\mu< \bar{X}+t^{(n-1)}_{\alpha}\frac{S}{\sqrt{n}}$
	Tối thiểu	$\bar{X}-t^{(n-1)}_{\alpha}\frac{S}{\sqrt{n}}<\mu$
TB tổng thể khi biết $\sigma$	Hai phía	$\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}<\mu<\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$	$n=\Big( z_{\alpha/2} \frac{\sigma}{\varepsilon} \Big)^2$
Phương sai tổng thể	Hai phía	$\frac{(n-1)S^2}{\chi^{2(n-1)}_{\alpha/2}}<\sigma^2<\frac{(n-1)S^2}{\chi^{2(n-1)}_{1-\alpha/2}}$
Tần suất tổng thể	Hai phía	$\hat{p}-z_{\alpha/2}\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}}<p<\hat{p}+z_{\alpha/2}\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}}$ hay $\hat{p} \pm \varepsilon$	$n=z^2_{\alpha/2} \frac{\hat{p}(1-\hat{p})}{\varepsilon^2}$

KIỂM ĐỊNH GIẢ THUYẾT VỀ THAM SỐ (Parametric Hypothesis Testing)

Kiểm định một tham số, một tổng thể, một mẫu

Kiểm đinh	Giả thuyết gốc Thống kê	Giả thuyết đối	Miền bác bỏ
Trung bình tổng thể phân phối chuẩn, biết phương sai tổng thể	$H_0: \mu_1 = \mu_2$ $T=\frac{\bar{X}-\mu_0}{\sigma / \sqrt{n}}$	$H_1: \mu \neq \mu_0$	$\|Z\| > z_{\alpha/2}$
		$H_1: \mu > \mu_0$	$Z>z_\alpha$
		$H_1: \mu < \mu_0$	$Z < - z_\alpha$
Trung bình tổng thể phân phối chuẩn, không biết phương sai tổng thể	$H_0: \mu_1 = \mu_2$ $T=\frac{\bar{X}-\mu_0}{S / \sqrt{n}}$	$H_1: \mu \neq \mu_0$	$\|T\|>t_{\alpha/2}^{(n-1)}$
		$H_1: \mu > \mu_0$	$T>t_{\alpha}^{(n-1)}$
		$H_1: \mu < \mu_0$	$T<-t_{\alpha}^{(n-1)}$
Phương sai tổng thể phân phối chuẩn	$H_0: \sigma^2 = \sigma^2_0$ $\chi^2=\frac{(n-1)S^2}{\sigma^2_0}$	$H_1: \sigma^2 \neq \sigma^2_0$	$\chi^2>\chi^{2(n-1)}_{\alpha/2}$ hoặc $\chi^2 < \chi^{2(n-1)}_{1- \alpha/2}$
		$H_1: \sigma^2 > \sigma^2_0$	$\chi^2>\chi^{2(n-1)}_{\alpha}$
		$H_1: \sigma^2 < \sigma^2_0$	$\chi^2 < \chi^{2(n-1)}_{1- \alpha}$
Tần suất tổng thể	$H_0: p = p_0$ $Z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$	$H_1: p \neq p_0$	$\|Z\| > z_{\alpha/2}$
		$H_1: p > p_0$	$Z>z_\alpha$
		$H_1: p < p_0$	$Z < - z_\alpha$

Kiểm định hai tham số, hai tổng thể, hai mẫu

Kiểm đinh	Giả thuyết gốc Thống kê	Giả thuyết đối	Miền bác bỏ
Hai trung bình tổng thể phân phối chuẩn, giả sử phương sai bằng nhau	$H_0: \mu_1 = \mu_2$ $T=\frac{\bar{X}_1 - \bar{X}_2}{\sqrt{S^2_p \Big( \dfrac{1}{n_1} + \dfrac{1}{n_2}\Big)}}$ $S^2_p = \frac{(n_1-1)S^2_1 + (n_2-1)S^2_2}{n_1 + n_2 - 2}$	$H_1: \mu_1 \neq \mu_2$	$\|T\|>t^{(n_1+n_2-2)}_{\alpha/2}$
		$H_1: \mu_1 > \mu_2$	$T>t^{(n_1+n_2-2)}_{\alpha}$
		$H_1: \mu_1 < \mu_2$	$T<-t^{(n_1+n_2-2)}_{\alpha}$
Hai trung bình tổng thể phân phối chuẩn, giả sử phương sai khác nhau	$H_0: \mu_1 = \mu_2$ $T=\frac{\bar{X}_1 - \bar{X}_2}{\sqrt{ \dfrac{S^2_1}{n_1} + \dfrac{S^2_2}{n_2} }}$ $n_1>30,n_2>30$	$H_1: \mu_1 \neq \mu_2$	$\|T\|>z_{\alpha/2}$
		$H_1: \mu_1 > \mu_2$	$T>z_{\alpha}$
		$H_1: \mu_1 < \mu_2$	$T<-z_{\alpha}$
Hai phương sai tổng thể phân phối chuẩn	$H_0: \sigma^2_1 = \sigma^2_2$ $F=\frac{S^2_1}{S^2_2}$	$H_1: \sigma^2_1 \neq \sigma^2_2$	$F>f^{(n_1-1,n_2-1)}_{\alpha/2}$ hoặc $F<f^{(n_1-1,n_2-1)}_{1-\alpha/2}$
		$H_1: \sigma^2_1 > \sigma^2_2$	$F>f^{(n_1-1,n_2-1)}_{\alpha}$
		$H_1: \sigma^2_1 < \sigma^2_2$	$F<f^{(n_1-1,n_2-1)}_{1-\alpha}$
Hai tần suất tổng thể	$H_0: p_1 = p_2$ $Z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\bar{p}(1-\bar{p}) \Big(\dfrac{1}{n_1} + \dfrac{1}{n_2}\Big)}}$ $\bar{p}=\frac{n_1 \hat{p}_1 + n_2 \hat{p}_2}{n_1 + n_2}$	$H_1: p_1 \neq p_2$	$\|Z\| > z_{\alpha/2}$
		$H_1: p_1 > p_2$	$Z>z_\alpha$
		$H_1: p_1 < p_2$	$Z < - z_\alpha$