Phân phối chuẩn (Tiếng Anh: normal distribution), còn được biết đến với tên gọi phân phối Gauss hoặc (Hình chuông Gauss), là một phân phối xác suất rất quan trọng trong nhiều lĩnh vực. Đây là họ phân phối có hình dạng tổng quát tương tự nhau, chỉ khác về tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ).
Phân phối chuẩn tắc (standard normal distribution) là phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ) bằng 1. Phân phối chuẩn còn được gọi là đường cong chuông (bell curve) vì đồ thị mật độ xác suất có hình dạng giống như một chiếc chuông.
Lịch sử
Abraham de Moivre là người đầu tiên giới thiệu phân phối chuẩn trong bài viết năm 1734 (được in lại trong ấn bản lần 2 The Doctrine of Chances, 1738) nhằm xấp xỉ phân phối nhị thức khi n rất lớn. Kết quả này sau đó được mở rộng bởi Laplace trong cuốn sách Analytical Theory of Probabilities (1812) và hiện được biết đến với tên gọi định lý Moivre-Laplace.
Laplace đã áp dụng phân phối chuẩn để phân tích sai số trong các thí nghiệm. Phương pháp bình phương tối thiểu quan trọng được Legendre giới thiệu vào năm 1805. Vào năm 1809, Gauss, người khẳng định đã sử dụng phương pháp này từ năm 1794, đã chứng minh nó bằng cách giả định rằng các sai số tuân theo phân phối chuẩn.
Thuật ngữ 'đường cong chuông' được Jouffret đặt ra, người đã sử dụng cụm từ 'bề mặt hình chuông' vào năm 1872 để chỉ phân phối chuẩn hai chiều với các thành phần độc lập. Tên gọi 'phân phối chuẩn' được tạo ra bởi Charles S. Peirce, Francis Galton và Wilhelm Lexis khoảng năm 1875.
Các đặc điểm của phân phối chuẩn
Có nhiều cách để biểu diễn các đặc tính của một phân phối xác suất. Phương pháp rõ ràng nhất là thông qua hàm mật độ xác suất (như trong hình đầu tiên), cho biết xác suất xảy ra của mỗi giá trị của biến ngẫu nhiên. Hàm phân phối tích lũy cũng cung cấp thông tin tương tự, nhưng hình ảnh của nó ít trực quan hơn (xem hình sau). Các phương pháp thay thế để mô tả phân phối chuẩn bao gồm: mômen, ước lượng, hàm đặc trưng, hàm khởi tạo mômen, và hàm khởi tạo ước lượng cùng định lý Maxwell. Mặc dù một số phương pháp này rất hữu ích về mặt lý thuyết, chúng không dễ hình dung. Xem thêm về phân phối xác suất.
Tất cả các ước lượng của phân phối chuẩn đều bằng 0, ngoại trừ hai cái đầu tiên.
Hàm mật độ xác suất
Hàm mật độ xác suất của phân phối chuẩn với giá trị trung bình và phương sai (hoặc độ lệch chuẩn ) là một ví dụ điển hình của hàm Gauss
Khi một biến ngẫu nhiên tuân theo phân phối này, ta ký hiệu là ~ . Nếu và , thì phân phối này được gọi là phân phối chuẩn tắc và hàm mật độ xác suất của nó đơn giản hóa thành
Hình ảnh bên phải minh họa hàm mật độ xác suất của phân phối chuẩn với các tham số khác nhau.
Dưới đây là một số đặc điểm của phân phối chuẩn:
- Hàm mật độ phân phối chuẩn có tính đối xứng quanh giá trị trung bình (kì vọng).
- Giá trị trung bình cũng đồng thời là mode và trung vị của phân phối.
- 68.27% diện tích dưới đường cong nằm trong khoảng 1 độ lệch chuẩn từ giá trị trung bình (tức là từ ).
- 95.45% diện tích dưới đường cong nằm trong khoảng 2 độ lệch chuẩn .
- 99.73% diện tích dưới đường cong nằm trong khoảng 3 độ lệch chuẩn .
- 99.99% diện tích dưới đường cong nằm trong khoảng 4 độ lệch chuẩn .
- 99.9999% diện tích dưới đường cong nằm trong khoảng 5 độ lệch chuẩn .
- 99.9999998% diện tích dưới đường cong nằm trong khoảng 6 độ lệch chuẩn .
- 99.99999999% diện tích dưới đường cong nằm trong khoảng 7 độ lệch chuẩn .
Điểm uốn của hàm mật độ phân phối chuẩn xảy ra tại các điểm x = ±σ.
Tích phân
Diện tích dưới đường cong của phân phối chuẩn luôn bằng 1. Dưới đây là cách chứng minh:
Xét , Ta có .
Để áp dụng hệ tọa độ cực, ta có thể sử dụng các công thức sau: . Để chuyển đổi ma trận Jacobian, chúng ta có: với ma trận Jacobian.
Định thức Jacobian cho phép chuyển đổi từ hệ tọa độ Cartesian (x, y) sang hệ tọa độ cực (r, θ). Cụ thể, định thức này được tính bởi ma trận đạo hàm riêng sau: [ J = egin{bmatrix} rac{partial (x,y)}{partial (r, heta)} end{bmatrix} ] Điều này cho phép chúng ta viết diện tích vi phân ( dx , dy ) trong hệ tọa độ Cartesian tương đương với ( r , dr , d heta ) trong hệ tọa độ cực. Kết quả là: [ dx , dy = egin{bmatrix} rac{partial x}{partial r} & rac{partial x}{partial heta} \ rac{partial y}{partial r} & rac{partial y}{partial heta} end{bmatrix} dr , d heta = r , dr , d heta ] Do đó, tích phân của hàm Gaussian trên toàn bộ mặt phẳng có thể được chuyển đổi thành: [ I^2 = int_{-infty}^{infty} int_{-infty}^{infty} e^{-rac{x^2 + y^2}{2}} , dx , dy = int_{0}^{2pi} int_{0}^{infty} e^{-rac{r^2}{2}} , r , dr , d heta ]
Vậy , ta có
Hàm phân phối tích lũy
Hàm phân phối tích lũy (cdf) cho biết xác suất của một biến có giá trị nhỏ hơn hoặc bằng , và nó được biểu diễn qua hàm mật độ dưới đây:
Hàm phân phối tích lũy chuẩn, ký hiệu là , được xác định từ hàm cdf tổng quát khi và .
Hàm phân phối tích lũy chuẩn hóa có thể được biểu diễn qua một hàm đặc biệt gọi là hàm sai số như sau
Hàm phân phối tích lũy nghịch đảo, hay hàm 'quantile', có thể được viết dưới dạng hàm nghịch đảo của hàm sai số:
Hàm 'quantile' này đôi khi được gọi là hàm 'probit'. Hàm 'probit' không có nguyên hàm sơ cấp. Khi nói không có nguyên hàm ở đây không phải là không tìm thấy, mà nghĩa là đã chứng minh rằng không tồn tại nguyên hàm như vậy.
Đôi khi cần tính: với độ chính xác đến vài chữ số thập phân bằng các phương pháp:
Ví dụ: Tính với độ chính xác 4 chữ số thập phân:
Ta có: . Do đó, nhớ tạm giá trị 0.5
Tiếp tục: . Ghi nhớ tạm giá trị 0.52
Tiếp tục: . Ghi nhớ tạm giá trị 0.524
Cuối cùng:
Kết quả:
Giá trị của hàm Φ(x) có thể được xấp xỉ chính xác bằng nhiều phương pháp khác nhau, chẳng hạn như tích phân số, chuỗi Taylor, hoặc chuỗi tiệm cận.
Hàm khởi tạo
Hàm khởi tạo mômen
Hàm khởi tạo mômen được xác định là giá trị kỳ vọng của . Đối với phân phối chuẩn, hàm này có thể được viết như
và có thể nhận thấy bằng cách khai triển biểu thức trong ngoặc thành bình phương chính xác.
Hàm đặc trưng
Hàm đặc trưng được xác định là giá trị kỳ vọng của , trong đó là đơn vị ảo. Đối với phân phối chuẩn, hàm đặc trưng có dạng
Hàm đặc trưng có thể được tính bằng cách thay bằng trong hàm khởi tạo mômen.
Tính chất
Một số đặc điểm của phân phối chuẩn:
- Nếu và và là các số thực, thì (xem giá trị kì vọng và phương sai).
- Nếu và là các biến ngẫu nhiên chuẩn độc lập, thì:
- Tổng của chúng là có phân phối chuẩn với (proof).
- Hiệu của chúng là có phân phối chuẩn với .
- Cả hai và là độc lập với nhau.
- Nếu và là các biến ngẫu nhiên chuẩn độc lập, thì:
- Tích của chúng tuân theo phân phối với hàm mật độ cho bởi
- với là hàm Bessel được chỉnh sửa loại 2.
- Tỉ số giữa chúng tuân theo phân phối Cauchy với .
- Tích của chúng tuân theo phân phối với hàm mật độ cho bởi
- Nếu là các biến ngẫu nhiên chuẩn tắc độc lập, thì có phân phối chi-bình phương với n bậc tự do.
Chuẩn hóa biến ngẫu nhiên có phân phối chuẩn
Một hệ quả của Tính chất 1 là mọi biến ngẫu nhiên phân phối chuẩn đều có thể được quy về dạng phân phối chuẩn tắc.
Nếu ~ , thì
là một biến có phân phối chuẩn tắc: ~ . Điều này dẫn đến một hệ quả quan trọng rằng hàm phân phối tích lũy của một phân phối chuẩn tổng quát sẽ là:
Ngược lại, nếu ~ , thì
là một biến ngẫu nhiên phân phối chuẩn với trị trung bình và phương sai .
Các giá trị của phân phối chuẩn hóa đã được tổng hợp sẵn trong bảng, và mọi phân phối chuẩn khác đều là các biến thể đơn giản từ phân phối chuẩn hóa. Vì vậy, bạn có thể tra cứu bảng giá trị phân phối tích lũy của phân phối chuẩn hóa để tính toán các giá trị phân phối tích lũy của các phân phối chuẩn khác.
Đặc trưng mô-men
Một số mô-men bậc thấp của phân phối chuẩn là:
Number | Raw moment | Central moment | Cumulant |
---|---|---|---|
0 | 1 | 0 | |
1 | 0 | ||
2 | |||
3 | 0 | 0 | |
4 | 0 |
Các mô-men của phân phối chuẩn từ bậc ba trở lên đều bằng không.
Khởi tạo biến ngẫu nhiên với phân phối chuẩn
Khi thực hiện mô phỏng trên máy tính, thường cần khởi tạo các giá trị với phân phối chuẩn. Một phương pháp phổ biến và đơn giản là sử dụng hàm phân phối tích lũy chuẩn tắc. Một kỹ thuật hiệu quả thường được áp dụng là biến đổi Box-Muller.
Biến đổi Box-Muller dựa vào phân phối chi-bình phương với hai bậc tự do (xem tính chất 4 ở trên), là một biến ngẫu nhiên có thể khởi tạo dễ dàng.
Định lý giới hạn trung tâm
Phân phối chuẩn có một đặc điểm quan trọng: trong một số điều kiện nhất định, tổng của nhiều biến ngẫu nhiên độc lập sẽ xấp xỉ theo phân phối chuẩn.
Đây chính là định lý giới hạn trung tâm.
Định lý giới hạn trung tâm rất quan trọng vì phân phối chuẩn có thể được sử dụng để xấp xỉ nhiều loại phân phối khác.
- Một phân phối nhị thức với tham số và sẽ được xấp xỉ bằng phân phối chuẩn khi lớn và không quá gần 1 hoặc 0. Xấp xỉ này thường áp dụng khi và đều lớn hơn hoặc bằng 5. Trong trường hợp này, cần phải điều chỉnh tính liên tục.
- Phân phối Poisson với tham số sẽ được xấp xỉ bằng phân phối chuẩn khi giá trị của lớn. Phân phối chuẩn xấp xỉ có trị trung bình và phương sai .
Mức độ chính xác của các phép xấp xỉ trên phụ thuộc vào mục đích sử dụng và tốc độ hội tụ về phân phối chuẩn. Thường thì độ chính xác thấp xảy ra ở các đuôi phân phối.
Khả năng phân chia vô hạn
Phân phối chuẩn có khả năng phân chia vô hạn.
Độ ổn định
Phân phối chuẩn là một phân phối xác suất có tính ổn định cao.
Độ lệch chuẩn
Trong thực nghiệm, chúng ta thường giả định dữ liệu đến từ một tổng thể phân phối gần chuẩn. Nếu giả định này được xác nhận, khoảng 68% giá trị nằm trong khoảng 1 độ lệch chuẩn so với trung bình, khoảng 95% nằm trong khoảng 2 độ lệch chuẩn, và khoảng 99.7% nằm trong khoảng 3 độ lệch chuẩn. Đây là 'quy tắc 68-95-99.7' hay còn gọi là quy tắc kinh nghiệm.
Kiểm tra giả thuyết về phân phối chuẩn
Các phương pháp kiểm tra giúp xác định liệu một tập dữ liệu có phân phối tương tự như phân phối chuẩn hay không. Nếu giả thiết không phải phân phối chuẩn, một giá trị P thấp cho thấy dữ liệu không phù hợp với phân phối chuẩn.
- Kiểm định Kolmogorov-Smirnov
- Kiểm định Lilliefors
- Kiểm định Anderson-Darling
- Kiểm định Ryan-Joiner
- Kiểm định Shapiro-Wilk
- Đồ thị phân phối chuẩn (rankit plot)
- Kiểm định Jarque-Bera
Các phân phối liên quan
- là một phân phối Rayleigh nếu với và là 2 phân phối chuẩn độc lập.
- là một phân phối khi-bình phương với bậc tự do nếu với cho và là độc lập
- là một phân phối Cauchy nếu và và là 2 phân phối chuẩn độc lập.
- là một phân phối log-normal nếu and .
- Liên quan đến phân phối Lévy skew alpha-stable: nếu thì .
- Phân phối chuẩn rút gọn. Nếu, thì, việc rút gọn dưới tại và trên tại sẽ dẫn đến một biến ngẫu nhiên với mean , trong đó và và , trong đó là hàm mật độ xác suất của biến ngẫu nhiên chuẩn tắc.
Ước lượng tham số
Ước lượng cực đại hợp lý cho các tham số
Giả sử
độc lập và mỗi biến đều có phân phối chuẩn với kỳ vọng μ và phương sai σ. Trong thống kê, các giá trị quan sát của những biến ngẫu nhiên này tạo thành một 'mẫu từ tổng thể có phân phối chuẩn'. Chúng ta cần ước lượng 'trị trung bình tổng thể μ và độ lệch chuẩn tổng thể σ dựa trên các giá trị quan sát được của mẫu. Hàm mật độ xác suất liên hợp của các biến ngẫu nhiên này là:
(Lưu ý: Ký hiệu tỉ lệ ở đây thể hiện rằng tỉ lệ với và , không phải tỉ lệ với . Đây là sự khác biệt quan trọng giữa các nhà thống kê và nhà xác suất. Tầm quan trọng của sự khác biệt này sẽ được giải thích tiếp theo.)
Hàm hợp lý - một hàm của μ và σ là
Trong phương pháp ước lượng cực đại, giá trị của μ và σ mà làm cho hàm hợp lý đạt giá trị cực đại sẽ là các ước lượng tối ưu cho các tham số μ và σ của phân phối Gaussian.
Thông thường, khi cực đại hóa một hàm với hai biến, chúng ta thường xét các đạo hàm riêng. Tuy nhiên, ở đây, chúng ta sẽ khai thác một đặc điểm đặc biệt: giá trị của μ được dùng để cực đại hóa hàm hợp ký với σ là hằng số, không phụ thuộc vào σ. Vì vậy, chúng ta có thể tìm giá trị của μ trước, rồi thay vào phương trình hợp lý, để cuối cùng xác định giá trị của σ nhằm cực đại hóa biểu thức tìm được.
Rõ ràng, hàm hợp ký là một hàm giảm dần của tổng.
Do đó, mục tiêu của chúng ta là tìm giá trị của μ sao cho tổng này đạt giá trị cực tiểu. Đặt:
Đây là 'trị trung bình mẫu'. Như vậy, ta có thể nhận thấy
Đây là ước lượng tối ưu nhất của μ. Khi chúng ta thay thế giá trị này vào hàm hợp lý, kết quả thu được là:
Chúng ta định nghĩa hàm 'log hợp lý' là logarit của hàm hợp lý, ký hiệu bằng chữ và có thể viết như sau
và sau đó
Đạo hàm này có thể dương, bằng 0, hoặc âm, tùy thuộc vào giá trị của σ nằm giữa 0 và
hoặc bằng giá trị đó, hoặc vượt quá giá trị đó.
Kết quả của việc tính trị trung bình của bình phương các sai số chính là một ước lượng hợp lý cực đại của σ, và căn bậc hai của giá trị này cung cấp ước lượng hợp lý cực đại của σ. Mặc dù ước lượng này có độ chệch, nhưng sai số căn quân phương của nó lại nhỏ hơn so với ước lượng không chệch, mà cụ thể là n/(n − 1) lần ước lượng đó.
Những điều bất ngờ từ khái quát
Ước lượng không chệch của các tham số
Ước lượng hợp lý cực đại của tổng thể tương đương với việc của một mẫu là một ước lượng không chệch của trị trung bình và phương sai cũng tương tự. Tuy nhiên, điều này chỉ đúng khi trị trung bình của tổng thể đã được biết trước. Thực tế, chúng ta chỉ có một mẫu từ tổng thể và không có thông tin nào về trị trung bình hay phương sai của tổng thể. Trong trường hợp này, ước lượng không chệch của phương sai là:
'Phương sai mẫu' sẽ tuân theo phân phối Gamma nếu tất cả các biến ngẫu nhiên X đều có phân phối giống nhau và là độc lập.
- Phân phối chuẩn và không tương quan không đồng nghĩa với độc lập thống kê (ví dụ về hai biến ngẫu nhiên phân phối chuẩn, không tương quan nhưng không độc lập; điều này không xảy ra trong phân phối chuẩn đa biến)
- Phân phối log-chuẩn
- Phân phối chuẩn đa biến
- Phân phối Gauss tổng quát
- Hàm probit
- Phân phối t của Student
- Vấn đề Behrens-Fisher
- John Aldrich. Các lần sử dụng sớm các ký hiệu trong Xác suất và Thống kê. Tài liệu điện tử, truy cập ngày 20 tháng 3 năm 2005. (Xem 'Các ký hiệu liên quan đến Phân phối Chuẩn'.)
- Abraham de Moivre (1738). Học thuyết về Xác suất.
- Stephen Jay Gould (1981). Những Sai Lầm của Con Người. Ấn bản đầu tiên. W. W. Norton. ISBN 0-393-01489-4.
- R. J. Herrnstein và Charles Murray (1994). Đường Cong Chuông: Thông Minh và Cấu Trúc Xã Hội ở Mỹ. Free Press. ISBN 0-02-914673-9.
- Pierre-Simon Laplace (1812). Teo Rút Toán học.
- Jeff Miller, John Aldrich, et al. Những lần sử dụng sớm một số từ ngữ Toán học. Đặc biệt là các mục cho 'hình chuông và đường cong chuông', 'chuẩn' (phân phối), 'Gaussian', và 'Lỗi, luật lỗi, lý thuyết lỗi, v.v.'. Tài liệu điện tử, truy cập ngày 13 tháng 12 năm 2005.
- S. M. Stigler (1999). Thống kê trên Bàn, chương 22. Harvard University Press. (Lịch sử thuật ngữ 'phân phối chuẩn'.)
- Eric W. Weisstein et al. Phân phối Chuẩn tại MathWorld. Tài liệu điện tử, truy cập ngày 20 tháng 3 năm 2005.
- Marvin Zelen và Norman C. Severo (1964). Hàm Xác Suất. Chương 26 của Sổ tay các Hàm Toán học với Công thức, Đồ thị và Bảng Toán học, biên tập bởi Milton Abramowitz và Irene A. Stegun. Cục Tiêu chuẩn Quốc gia.
Các liên kết ngoài
- Chế độ tương tác tính toán các phân phối (bao gồm phân phối chuẩn).
- Công cụ tính toán diện tích dưới đường phân phối chuẩn Lưu trữ ngày 31-03-2008 tại Wayback Machine từ trang web Free Statistics Calculators của Daniel Soper. Tính diện tích tích lũy dưới đường cong phân phối (tức là xác suất lũy tích), cho trước giá trị z.
- Các công cụ cơ bản cho vấn đề 6-sigma.
- PlanetMath: biến ngẫu nhiên phân phối chuẩn Lưu trữ ngày 16-05-2008 tại Wayback Machine.
- Thư viện khoa học GNU – Tài liệu tham khảo – Phân phối Gaussian.
- Công cụ tính toán phân phối – Xác suất và các giá trị phân giới cho phân phối chuẩn, t, khi-bình phương và phân phối F.
- Liệu phân phối chuẩn có phải được đặt tên theo Karl Gauss? Euler và đường cong gamma của ông; vai trò của thống kê Lưu trữ ngày 10-02-2006 tại Wayback Machine.
- Maxwell demons: Mô phỏng các phân phối xác suất bằng các hàm của phép toán luận lý Lưu trữ ngày 05-04-2006 tại Wayback Machine.
- Bảng phân phối chuẩn
- Máy tính trực tuyến phân phối chuẩn.