Tổng hợp kiến thức Lý thuyết xác suất & Thống kê toán

[latexpage] At first, we sample $f(x)$ in the $N$ ($N$ is odd) equidistant points around $x^*$:
\[
f_k = f(x_k),\: x_k = x^*+kh,\: k=-\frac{N-1}{2},\dots,\frac{N-1}{2}
\] where $h$ is some step.
Then we interpolate points $\{(x_k,f_k)\}$ by polynomial
\begin{equation} \label{eq:poly}
P_{N-1}(x)=\sum_{j=0}^{N-1}{a_jx^j}
\end{equation}
Its coefficients $\{a_j\}$ are found as a solution of system of linear equations:
\begin{equation} \label{eq:sys}
\left\{ P_{N-1}(x_k) = f_k\right\},\quad k=-\frac{N-1}{2},\dots,\frac{N-1}{2}
\end{equation}
Here are references to existing equations: (\ref{eq:poly}), (\ref{eq:sys}).
Here is reference to non-existing equation (\ref{eq:unknown}).
LÝ THUYẾT XÁC SUẤT

THỐNG KÊ MÔ TẢ

Tổng thể (Population) Mẫu (Sample)
Kích thước
(size)
N n
Liệt kê giá trị (x_1,x_2,...,x_N) (x_1,x_2,...,x_n)
Trung bình
(mean)
\mu=\frac{\sum_{i=1}^{N}x_i }{N} \bar{x}=\frac{\sum_{i=1}^n x_i}{n}
Phương sai
(variance)
\sigma^2=\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N} s^2=\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}
Độ lệch chuẩn
(standard deviation)
\sigma = \sqrt{\sigma^2} s=\sqrt{s^2}
Hệ số biến thiên
(Coef. of variation)
CV=\frac{\sigma}{\mu}\cdot 100\% CV=\frac{s}{\bar{x}} \cdot 100\%
Tứ phân vị
(Quartile)
Q_1,Q_2,Q_3
Khoảng tứ phân vị
(Interquartile Range)
IQR=Q_3 - Q_1
Giá trị chuẩn hóa
(Z-score)
z_i = \frac{x_i-\mu}{\sigma} z_i = \frac{x_i - \bar{x}}{s}
Hệ số bất đối xứng
(Skewness)
a_3 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^3 / n}{s^3}
Hệ số nhọn
(Kurtorsis)
a_4 = \frac{\sum_{i=1}^n (x_i -\bar{x})^4/n}{s^4}

Kurt = \frac{\sum_{i=1}^n (x_i -\bar{x})^4/n}{s^4} - 3

Hiệp phương sai
(Covariance)
Cov(X,Y)=\frac{\sum_{i=1}^{N}(x_i-\mu_X)(y_i - \mu_Y)}{N} cov(X,Y)=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{n-1}
Hệ số tương quan
(Correlation coef.)
\rho(X,Y)=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} r(X,Y)=\frac{cov(X,Y)}{s_X s_Y}

CÁC CÔNG THỨC XÁC SUẤT

Xác suất theo định nghĩa cổ điển
(Classical definition)
P(A)=\frac{N_A}{N}
Xác suất theo định nghĩa thống kê
(Statistical definition)
P(A) \approx \frac{f_A}{n} khi  n \to \infty
Xác suất hai biến cố đối lập
(Prob. of complement events)
P(\bar{A}) + P(A)=1
Xác suất tích hai biến cố
(Prob. of intersection)
P(A \cdot B) = P(A) \cdot P(B|A)= P(B) \cdot P(A|B)
Xác suất có điều kiện
(Conditional probability)
P(A|B)=\frac{P(A\cdot B)}{P(B)}
Hai biến cố độc lập
(Independent events)

P(A|B)=P(B) và  P(B|A)=P(B)

P(A\cdot B)=P(A)\cdot P(B)

Nhiều biến cố độc lập toàn phần
(Totally independent events)
P \left(\prod_{i=1}^{n} A_i \right) = \prod_{i=1}^{n} P(A_i)
Xác suất tổng hai biến cố
(Prob. of union)
P(A+B)=P(A)+P(B)-P(A\cdot B)
Hai biến cố xung khắc
(Mutually exclusive events)
P(A+B)=P(A)+P(B)
Nhiều biến cố xung khắc
(Mutually exclusive events)
P\left( \sum_{i=1}^{n}A_i \right)=\sum_{i=1}^{n}P(A_i)
Công thức xác suất đầy đủ
(Total probability)
P(B)=\sum_{i=1}^{n}P(A_i)\cdot P(B|A_i)
Công thức Bayes
(Bayes’s theorem)
P(A_i|B)=\frac{P(B\cdot A_i)}{P(B)}=\frac{P(A_i)\cdot P(B|A_i)}{\sum_{i=1}^{n}P(A_i)\cdot P(B|A_i)}

BIẾN NGẪU NHIÊN

Bảng phân phối xác suất của BNN rời rạc
X x_1 x_2 \cdots x_n
P(X) p_1 p_2 \cdots p_n

\sum_{i=1}^{n}p_i = 1

Hàm phân phối xác suất F(x)=P(X<x)

P(a\leq X<b)=F(b)-F(a)

Hàm mật độ xác suất của BNN liên tục f(x)=F^\prime(x)

\int_{-\infty}^{+\infty}f(x)dx=1

P(a<X<b)=\int_{a}^{b}f(x)dx=F(b)-F(a)

Kỳ vọng E(X)= \begin{cases} \displaystyle \sum_{i=1}^{n}x_i p_i & \text{ discrete } \\ \displaystyle \int_{-\infty}^{+\infty} x f(x) dx & \text{ continuous } \end{cases}
Phương sai V(X)= E\big[X - E(X) \big]^2 = E(X^2) - \big[E(X) \big]^2

E(X^2)= \begin{cases} \displaystyle \sum_{i=1}^{n}x_i^2 p_i & \text{ discrete } \\ \displaystyle \int_{-\infty}^{+\infty} x^2 f(x) dx & \text{ continuous } \end{cases}

Độ lệch chuẩn \sigma = \sqrt{V(X)}
Mốt

 

Biến ngẫu nhiên hai chiều rời rạc

XY y_1 y_2 \cdots y_m \sum = P(X)
x_1 p_{11} p_{12} \cdots p_{1m} P(x_1)
x_2 p_{21} p_{22} \cdots p_{2m} P(x_2)
\vdots \vdots \vdots \ddots \vdots \vdots
x_n p_{n1} p_{n2} \cdots p_{nm} P(x_n)
\sum = P(Y) P(y_1) P(y_2) \cdots P(y_m) 1

 

Hiệp phương sai Cov(X,Y)=E\Big[\big[X - E(X)\big] \big[Y - E(Y) \big] \Big]

= E(X \cdot Y) - E(X)\cdot E(Y) = \sum_{i} \sum_{j} x_i y_j p_{ij} - E(X)\cdot E(Y)

Hệ số tương quan \rho(X,Y)=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}
Nếu X,Yđộc lập Cov(X,Y)= \rho(X,Y)=0
Tính chất của kì vọng, phương sai
Với c là hằng số
Kì vọng Phương sai
E(c)=c V(c)=0
E(X+c)=E(X)+c V(X+c)=V(X)
E(c\cdot X)=c\cdot E(X) V(c\cdot X) = c^2 \cdot V(X)
E(X \pm Y)=E(X)\pm E(Y) V(X\pm Y)= V(X) + V(Y) \pm 2 Cov(X,Y)
E\big(\sum X_i \big)=\sum E(X_i) V\big(\sum X_i \big)=\sum V(X_i) nếu các X_i độc lập

PHÂN PHỐI XÁC SUẤT THÔNG DỤNG

Phân phối Không-một

Bernoulli:A(p)

Công thức tính xác suất P(X=x)=p^x (1-p)^{1-x} \quad; \quad x = 0,1
Tham số E(X)=p \quad ; \quad V(X)=p(1-p)
Phân phối Nhị thức

Binomial: B(n,p)

Công thức tính xác suất P(X=x)=C_n^xp^x(1-p)^{n-x}\quad;\quad x=0,1,2,...,n
Tham số E(X)=np \quad ; \quad V(X)=np(1-p)
Phân phối Poisson

P(\lambda)

Công thức tính xác suất P(X=x)=\frac{\lambda^xe^{-\lambda}}{x!} \quad; \quad x=0,1,2,...
Tham số E(X)=\lambda \quad ; \quad V(X)=\lambda
Phân phối Đều

Uniform: U(a,b)

Hàm mật độ f(x)= \begin{cases} \dfrac{1}{b-a} & : x \in (a,b) \\ \quad 0 & : x \notin (a,b) \end{cases}
Tham số E(X)= \frac{a+b}{2} \quad ; \quad V(X)= \frac{(b-a)^2}{12}
Phân phối Chuẩn

Normal: N(\mu, \sigma^2)

Hàm mật độ f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \quad; \quad x \in \mathbb{R}
Tham số E(X)=\mu \quad ; \quad V(X) = \sigma^2
Chuẩn hóa f(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}} \quad; \quad z \in \mathbb{R}
Công thức xác suất P(a<X<b) = P\left( \frac{a-\mu}{\sigma} < Z < \frac{b-\mu}{\sigma} \right)

P(|X-\mu| < \varepsilon) = 2 \cdot P\left(Z < \frac{\varepsilon}{\sigma} \right)

Quy tắc P(\mu-\sigma <X<\mu+\sigma)=0.6826

P(\mu-2\sigma <X<\mu+2\sigma)=0.9544

P(\mu-3\sigma <X<\mu+3\sigma)=0.9974

Giá trị tới hạn z_\alpha : P(Z >z_\alpha ) = \alpha
Phân phối Khi-bình phương

Chi-squared: \chi^2(n)

Giá trị tới hạn \chi^{2(n)}_\alpha : P \Big[\chi^2(n) > \chi^{2(n)}_\alpha \Big] = \alpha
Phân phối Student

T(n)

Giá trị tới hạn t^{(n)}_{\alpha} : P\Big[T(n) > t^{(n)}_{\alpha} \Big] = \alpha
Phân phối Fisher

F(n_1,n_2)

Giá trị tới hạn f^{(n_1,n_2)}_\alpha : P\Big[F(n_1,n_2) > f^{(n_1,n_2)}_\alpha \Big] = \alpha

MẪU NGẪU NHIÊN

Mẫu kích thước n W_n =(X_1,X_2,...,X_n)
Trung bình mẫu
(sample mean)
\bar{X}=\frac{\sum_{i=1}^{n}X_i}{n}

E(\bar{X})=\muV(\bar{X})=\frac{\sigma^2}{n}

\bar{X}\sim N\Big(\mu, \frac{\sigma^2}{n}\Big)   ;  \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim T^{(n-1)}

khi  X \sim N(\mu,\sigma^2) hoặc khi n đủ lớn

Phương sai mẫu
(sample variance)
S^2=\frac{\sum_{i=1}^{n}(X_i-\bar{X})^2}{n-1}

E(S^2)=\sigma^2

\frac{(n-1)S^2}{\sigma^2} \sim \chi^{2(n-1)}

khi  X \sim N(\mu,\sigma^2)

Tần suất mẫu
(sample proportion)
\hat{p}=\frac{X_A}{n}

E(\hat{p})=p   ;    V(\hat{p})=\frac{p(1-p)}{n}

\hat{p} \sim N\Big(p, \frac{p(1-p)}{n} \Big)

khi n đủ lớn

Hiệp phương sai mẫu
(sample covariance)
Cov(X,Y)=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}
Hệ số tương quan mẫu
(sample correlation)
R_{X,Y}=\frac{Cov(X,Y)}{S_X S_Y}

ƯỚC LƯỢNG ĐIỂM

Tính chất ước lượng điểm Không chệch (unbiasness) E(\hat{\theta}) = \theta
Hiệu quả (efficient) không chệch và V(\hat{\theta})  nhỏ nhất
Ước lượng hợp lý tối đa
(maximum likelihood estimator)
Hàm hợp lý L(\theta) = \begin{cases} \prod_i P(x_i) &: \text{discrete} \\ \prod_i f(x_i) &: \text{continous} \end{cases}
Tối đa hóa hàm hợp lý
hoặc logarit hàm hợp lý
L(\theta) \rightarrow max

hoặc  \ln L(\theta) \rightarrow max

KHOẢNG TIN CẬY (Confidence Interval)

Trung bình tổng thể khi không biết \sigma Hai phía \bar{X}-t^{(n-1)}_{\alpha/2}\frac{S}{\sqrt{n}}<\mu< \bar{X}+t^{(n-1)}_{\alpha/2}\frac{S}{\sqrt{n}}

hay  \bar{X} \pm \varepsilon

n=\Big( t_{\alpha/2}^{(n-1)} \frac{S}{\varepsilon} \Big)^2
Tối đa \mu< \bar{X}+t^{(n-1)}_{\alpha}\frac{S}{\sqrt{n}}
Tối thiểu \bar{X}-t^{(n-1)}_{\alpha}\frac{S}{\sqrt{n}}<\mu
TB tổng thể khi biết \sigma Hai phía \bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}<\mu<\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}} n=\Big( z_{\alpha/2} \frac{\sigma}{\varepsilon} \Big)^2
Phương sai tổng thể Hai phía \frac{(n-1)S^2}{\chi^{2(n-1)}_{\alpha/2}}<\sigma^2<\frac{(n-1)S^2}{\chi^{2(n-1)}_{1-\alpha/2}}
Tần suất tổng thể Hai phía \hat{p}-z_{\alpha/2}\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}}<p<\hat{p}+z_{\alpha/2}\frac{\sqrt{\hat{p}(1-\hat{p})}}{\sqrt{n}}

hay \hat{p} \pm \varepsilon

n=z^2_{\alpha/2} \frac{\hat{p}(1-\hat{p})}{\varepsilon^2}

KIỂM ĐỊNH GIẢ THUYẾT VỀ THAM SỐ (Parametric Hypothesis Testing)

Kiểm định một tham số, một tổng thể, một mẫu

Kiểm đinh Giả thuyết gốc
Thống kê
Giả thuyết đối Miền bác bỏ
Trung bình tổng thể phân phối chuẩn, biết phương sai tổng thể H_0: \mu_1 = \mu_2

T=\frac{\bar{X}-\mu_0}{\sigma / \sqrt{n}}

H_1: \mu \neq \mu_0 |Z| > z_{\alpha/2}
H_1: \mu > \mu_0 Z>z_\alpha
H_1: \mu < \mu_0 Z < - z_\alpha
Trung bình tổng thể phân phối chuẩn, không biết phương sai tổng thể H_0: \mu_1 = \mu_2

T=\frac{\bar{X}-\mu_0}{S / \sqrt{n}}

H_1: \mu \neq \mu_0 |T|>t_{\alpha/2}^{(n-1)}
H_1: \mu > \mu_0 T>t_{\alpha}^{(n-1)}
H_1: \mu < \mu_0 T<-t_{\alpha}^{(n-1)}
Phương sai tổng thể phân phối chuẩn H_0: \sigma^2 = \sigma^2_0

\chi^2=\frac{(n-1)S^2}{\sigma^2_0}

H_1: \sigma^2 \neq \sigma^2_0 \chi^2>\chi^{2(n-1)}_{\alpha/2} hoặc

\chi^2 < \chi^{2(n-1)}_{1- \alpha/2}

H_1: \sigma^2 > \sigma^2_0 \chi^2>\chi^{2(n-1)}_{\alpha}
H_1: \sigma^2 < \sigma^2_0 \chi^2 < \chi^{2(n-1)}_{1- \alpha}
Tần suất tổng thể H_0: p = p_0

Z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}

 

H_1: p \neq p_0 |Z| > z_{\alpha/2}
H_1: p > p_0 Z>z_\alpha
H_1: p < p_0 Z < - z_\alpha

Kiểm định hai tham số, hai tổng thể, hai mẫu

Kiểm đinh Giả thuyết gốc
Thống kê
Giả thuyết đối Miền bác bỏ
Hai trung bình tổng thể phân phối chuẩn, giả sử phương sai bằng nhau H_0: \mu_1 = \mu_2

T=\frac{\bar{X}_1 - \bar{X}_2}{\sqrt{S^2_p \Big( \dfrac{1}{n_1} + \dfrac{1}{n_2}\Big)}}

S^2_p = \frac{(n_1-1)S^2_1 + (n_2-1)S^2_2}{n_1 + n_2 - 2}

H_1: \mu_1 \neq \mu_2 |T|>t^{(n_1+n_2-2)}_{\alpha/2}
H_1: \mu_1 > \mu_2 T>t^{(n_1+n_2-2)}_{\alpha}
H_1: \mu_1 < \mu_2 T<-t^{(n_1+n_2-2)}_{\alpha}
Hai trung bình tổng thể phân phối chuẩn, giả sử phương sai khác nhau H_0: \mu_1 = \mu_2

T=\frac{\bar{X}_1 - \bar{X}_2}{\sqrt{ \dfrac{S^2_1}{n_1} + \dfrac{S^2_2}{n_2} }}

n_1>30,n_2>30

H_1: \mu_1 \neq \mu_2 |T|>z_{\alpha/2}
H_1: \mu_1 > \mu_2 T>z_{\alpha}
H_1: \mu_1 < \mu_2 T<-z_{\alpha}
Hai phương sai tổng thể phân phối chuẩn H_0: \sigma^2_1 = \sigma^2_2

F=\frac{S^2_1}{S^2_2}

H_1: \sigma^2_1 \neq \sigma^2_2 F>f^{(n_1-1,n_2-1)}_{\alpha/2} hoặc

F<f^{(n_1-1,n_2-1)}_{1-\alpha/2}

H_1: \sigma^2_1 > \sigma^2_2 F>f^{(n_1-1,n_2-1)}_{\alpha}
H_1: \sigma^2_1 < \sigma^2_2 F<f^{(n_1-1,n_2-1)}_{1-\alpha}
Hai tần suất tổng thể H_0: p_1 = p_2

Z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\bar{p}(1-\bar{p}) \Big(\dfrac{1}{n_1} + \dfrac{1}{n_2}\Big)}}

\bar{p}=\frac{n_1 \hat{p}_1 + n_2 \hat{p}_2}{n_1 + n_2}

H_1: p_1 \neq p_2 |Z| > z_{\alpha/2}
H_1: p_1 > p_2 Z>z_\alpha
H_1: p_1 < p_2 Z < - z_\alpha

 

 

KIỂM ĐỊNH PHI THAM SỐ (Non-parametric Testing)

Thống kê Cặp giả thuyết Miền bác bỏ
Kiểm định tính độc lập của hai dấu hiệu định tính \chi^2=n \Big[\sum_i \sum_j \frac{n_i m_j}{n_{ij}^2} -1 \Big] H_0:  hai dấu hiệu độc lập

H_1: hai dấu hiệu không độc lập

\chi^2 > \chi^{2((h-1)(k-1))}_\alpha
Jacque-Berra

Kiểm định tính phân phối chuẩn

\chi^2=n \Big[ \frac{Skew^2}{6} + \frac{K^2}{24} \Big] H_0: biến phân phối chuẩn

H_1: biến không phân phối chuẩn

\chi^2 > \chi^{2(2)}_\alpha