Phân tích hồi quy

Buzz

Ngày cập nhật gần nhất: 15/5/2026

Nội dung bài viết

Tổng quan

Công thức tổng quát

Hồi quy tuyến tính

Mô hình Gauss-Markov tuyến tính

Ước lượng bình phương tối thiểu cho các hệ số

Ví dụ minh họa

Liên kết tham khảo

Xem thêm

Đọc tóm tắt

- Phân tích hồi quy là công cụ thống kê để xác định tương quan giữa biến độc lập và biến phụ thuộc.
- Phương pháp này dựa trên dự đoán giá trị kỳ vọng của biến ngẫu nhiên dựa trên các biến khác.
- Hồi quy tuyến tính, logistic, Poisson và mô hình học có giám sát là các phương pháp phổ biến.
- Mô hình bao gồm thành phần dự đoán và phần sai số, và có thể được ước tính bằng phương pháp bình phương cực tiểu.
- Phân tích hồi quy SixSigmaFirst Curve Expert là công cụ lưu trữ và khớp các hàm với dữ liệu, giới hạn một biến phụ thuộc và một biến độc lập.
- Các phần mềm TableCurve2D và TableCurve3D của Systat tự động hóa việc khớp đường cong và mặt trực tuyến, được áp dụng trong nghiên cứu và giáo dục về khớp đường cong.

Phân tích hồi quy là một công cụ thống kê để xác định cách các biến độc lập (biến giải thích) ảnh hưởng đến các biến phụ thuộc (biến được giải thích).

Tổng quan

Phương pháp này dự đoán giá trị kỳ vọng của một hoặc nhiều biến ngẫu nhiên dựa trên điều kiện của các biến ngẫu nhiên khác. Các loại hồi quy bao gồm hồi quy tuyến tính, hồi quy logistic, hồi quy Poisson, và học có giám sát. Phân tích hồi quy không chỉ đơn thuần là chọn một đường cong phù hợp nhất với tập dữ liệu mà còn phải phù hợp với mô hình gồm cả thành phần ngẫu nhiên và xác định. Thành phần xác định gọi là bộ dự đoán và thành phần ngẫu nhiên gọi là phần sai số.

Mô hình hồi quy đơn giản nhất bao gồm một biến phụ thuộc (còn gọi là 'biến đầu ra', 'biến nội sinh', 'biến được giải thích', hoặc 'biến-Y') và một biến độc lập đơn (còn gọi là 'hệ số', 'biến ngoại sinh', 'biến giải thích', hoặc 'biến-X').

Một ví dụ điển hình là mối quan hệ giữa huyết áp Y và tuổi tác X của một cá nhân, hoặc mối liên hệ giữa trọng lượng Y của một động vật và lượng thức ăn hàng ngày X. Mối quan hệ này được gọi là hồi quy của Y đối với X.

Hồi quy thường được coi là một bài toán tối ưu, vì mục tiêu là tìm ra giải pháp tối ưu nhất cho sai số và phần dư. Phương pháp phổ biến nhất để tính sai số là phương pháp bình phương cực tiểu, liên quan đến một hàm hợp lý dạng Gauss của các dữ liệu quan sát khi biến ngẫu nhiên không rõ. Bình phương cực tiểu, về cơ bản, là một phương pháp ước lượng tối ưu, như được chứng minh trong định lý Gauss-Markov.

Để giải quyết bài toán tối ưu trong hồi quy, thường sử dụng các thuật toán như gradient descent, thuật toán Gauss-Newton, và thuật toán Levenberg-Marquardt. Các phương pháp xác suất như RANSAC có thể được áp dụng để tìm mô hình tốt nhất cho tập mẫu khi đã có một mô hình tham số hóa của đường cong.

Hồi quy có thể được biểu diễn thông qua các phương pháp ước lượng hợp lý cho các tham số của mô hình. Tuy nhiên, với dữ liệu hạn chế, ước lượng có thể có phương sai lớn (high variance). Các phương pháp Bayesian có thể giúp ước lượng mô hình hồi quy bằng cách giả định phân phối điều kiện trước cho các tham số, bao gồm tất cả thông tin thống kê đã biết. Phân phối điều kiện trước này sau đó được áp dụng cho vector tham số. Phương pháp Bayes có ưu điểm trong việc khai thác toàn bộ thông tin hiện có và cung cấp ước lượng chính xác, không chệch, phù hợp cho các tập dữ liệu nhỏ. Trong thực tế, phương pháp MAP (maximum a posteriori) thường được sử dụng vì nó đơn giản hơn phân tích Bayes đầy đủ, nơi các tham số được chọn để cực đại hóa phân phối điều kiện trước. Phương pháp MAP cũng liên quan đến Nguyên lý Occam's Razor, ưu tiên sự đơn giản khi có nhiều mô hình hồi quy hoặc lý thuyết.

Công thức tổng quát

Chúng ta muốn dự đoán giá trị của một biến ngẫu nhiên Y dựa trên một hoặc nhiều biến ngẫu nhiên khác được gọi là yếu tố. Giả sử là số lượng yếu tố được sử dụng trong dự đoán.

mô tả một không gian xác suất, và là một không gian đo được với là và với ). Chúng ta có thể xác định biến phụ thuộc và . Tiếp theo, hãy đặt $F$ là tập hợp các hàm xác định từ với các giá trị thuộc sao cho và $d$ là một metric sao cho là một không gian metric đầy đủ.

Chúng ta đang tìm kiếm một hàm đo được sao cho là tối thiểu.

Hồi quy tuyến tính

Hồi quy tuyến tính là một phương pháp rất phổ biến trong thực tế. Chúng ta giả định rằng hàm $f$ có mối liên hệ tuyến tính với các biến , do đó chúng ta chỉ cần xác định các hệ số thích hợp.

Giả sử là tập hợp các hệ số của mô hình. Lý thuyết cơ bản của hồi quy tuyến tính là:

\exists (β^{0}, \dots, β^{p}) \in θ^{p + 1} :

E (Y | X_{1}, \dots, X_{p}) = β^{0} + \sum_{j = 1}^{p} β^{j} X_{j}

Và chúng ta sử dụng một metric để đánh giá như sau:

\forall f, g \in F, d (f, g) = E [(f - g)^{2}]

Mục tiêu của chúng ta là giảm thiểu giá trị của , nghĩa là chúng ta đang tìm cách giảm thiểu sai số giữa dự đoán và giá trị thực tế.

f (X_{1}, \dots, X_{p}) = E (Y | X_{1}, \dots, X_{p}) = β^{0} + \sum_{j = 1}^{p} β^{j} X_{j}

Vì vậy, chúng ta cần xác định các giá trị của . Để thực hiện điều này một cách hiệu quả, có nhiều phương pháp đã được đề xuất, với phương pháp Gauss-Markov là phổ biến nhất, mặc dù nó yêu cầu thêm một số điều kiện bổ sung.

Mô hình Gauss-Markov tuyến tính

Ước lượng bình phương tối thiểu cho các hệ số

Ví dụ minh họa

Ví dụ cơ bản nhất về hồi quy là trường hợp một biến. Chúng ta có một vector giá trị x và một vector khác giá trị y. Nhiệm vụ của chúng ta là tìm một hàm sao cho .

Giả sử

\vec{x} = (\begin{matrix} - 2 \\ - 1 \\ 0 \\ 1 \\ 2 \end{matrix}), \vec{y} = (\begin{matrix} 5 \\ 2 \\ 1 \\ 2 \\ 5 \end{matrix})

Giả sử rằng hàm giải pháp của chúng ta thuộc về nhóm các hàm được xác định bởi chuỗi Fourier mở rộng cấp 3 (chuỗi Fourier bậc 3), được mô tả như sau:

f (x) = a_{0} / 2 + a_{1} \cos (x) + b_{1} \sin (x) + a_{2} \cos (2 x) + b_{2} \sin (2 x) + a_{3} \cos (3 x) + b_{3} \sin (3 x)

với là các hệ số thực. Bài toán này có thể được biểu diễn dưới dạng ma trận như sau:

(\begin{matrix} 1 / 2, & \cos (x), & \sin (x), & \cos (2 x), & \sin (2 x), & \cos (3 x), & \sin (3 x), \end{matrix}) (\begin{matrix} a_{0} \\ a_{1} \\ b_{1} \\ a_{2} \\ b_{2} \\ a_{3} \\ b_{3} \end{matrix}) = \vec{y}

Khi chúng ta điền vào dạng này các giá trị của chúng ta, chúng ta sẽ nhận được bài toán với dạng Xw = y

(\begin{matrix} 1 / 2 & \cos (- 2) & \sin (- 2) & \cos (- 4) & \sin (- 4) & \cos (- 6) & \sin (- 6) \\ 1 / 2 & \cos (- 1) & \sin (- 1) & \cos (- 2) & \sin (- 2) & \cos (- 3) & \sin (- 3) \\ 1 / 2 & 1 & 0 & 1 & 0 & 1 & 0 \\ 1 / 2 & \cos (1) & \sin (1) & \cos (2) & \sin (2) & \cos (3) & \sin (3) \\ 1 / 2 & \cos (2) & \sin (2) & \cos (4) & \sin (4) & \cos (6) & \sin (6) \end{matrix}) . (\begin{matrix} a_{0} \\ a_{1} \\ b_{1} \\ a_{2} \\ b_{2} \\ a_{3} \\ b_{3} \end{matrix}) = (\begin{matrix} 5 \\ 2 \\ 1 \\ 2 \\ 5 \end{matrix})

Bài toán hiện tại có thể được chuyển đổi thành bài toán tối ưu để tìm tổng cực tiểu của sai số bình phương.

Hàm Fourier bậc ba

min_{\vec{w}} \sum_{i = 1}^{n} (\vec{x_{i}} \vec{w} - y_{i})^{2}

min_{\vec{w}} ‖ X \vec{w} - \vec{y} ‖^{2} .

Giải bằng phương pháp bình phương cực tiểu cho kết quả là:

\vec{w} = (\begin{matrix} 0 \\ 4.25 \\ 0 \\ - 6.13 \\ 0 \\ 2.88 \\ 0 \end{matrix})

Vì vậy, hàm Fourier bậc ba phù hợp nhất với dữ liệu có công thức như sau:

f (x) = 4.25 \cos (x) - 6.13 \cos (2 x) + 2.88 \cos (3 x) .

Mạng nơ-ron nhân tạo
Kriging
Khai phá dữ liệu
Thống kê

Audi, R., Ed. (1996) Từ điển Triết học Cambridge. Cambridge, Cambridge University Press. Vấn đề khớp đường cong trang 172-173.
David Birkes và Yadolah Dodge, Các phương pháp hồi quy thay thế (1993), ISBN 0-471-56881-3
W. Hardle, Hồi quy phi tham số ứng dụng (1990), ISBN 0-521-42950-1
J. Fox, Phân tích hồi quy ứng dụng, Các mô hình tuyến tính và các phương pháp liên quan. (1997), Sage

Liên kết tham khảo

Phân tích hồi quy SixSigmaFirst
Curve Expert (phần mềm chia sẻ) Lưu trữ 2006-05-07 tại Wayback Machine, khớp các hàm với dữ liệu (giới hạn một biến phụ thuộc và một biến độc lập).
Khớp đường cong và mặt trực tuyến
TableCurve2D và TableCurve3D của Systat tự động hóa việc khớp đường cong
Ứng dụng LMS Lưu trữ 2005-04-08 tại Wayback Machine
Lựa chọn khác
Sách giáo khoa về khớp đường cong trực tuyến

Theovi.wikipedia.org

Copy link

Nội dung từ Mytour nhằm chăm sóc khách hàng và khuyến khích du lịch, chúng tôi không chịu trách nhiệm và không áp dụng cho mục đích khác.

Nếu bài viết sai sót hoặc không phù hợp, vui lòng liên hệ qua Zalo: 0978812412 hoặc Email: [email protected]