Phân tích hồi quy là một công cụ thống kê để xác định cách các biến độc lập (biến giải thích) ảnh hưởng đến các biến phụ thuộc (biến được giải thích).
Tổng quan
Phương pháp này dự đoán giá trị kỳ vọng của một hoặc nhiều biến ngẫu nhiên dựa trên điều kiện của các biến ngẫu nhiên khác. Các loại hồi quy bao gồm hồi quy tuyến tính, hồi quy logistic, hồi quy Poisson, và học có giám sát. Phân tích hồi quy không chỉ đơn thuần là chọn một đường cong phù hợp nhất với tập dữ liệu mà còn phải phù hợp với mô hình gồm cả thành phần ngẫu nhiên và xác định. Thành phần xác định gọi là bộ dự đoán và thành phần ngẫu nhiên gọi là phần sai số.
Mô hình hồi quy đơn giản nhất bao gồm một biến phụ thuộc (còn gọi là 'biến đầu ra', 'biến nội sinh', 'biến được giải thích', hoặc 'biến-Y') và một biến độc lập đơn (còn gọi là 'hệ số', 'biến ngoại sinh', 'biến giải thích', hoặc 'biến-X').
Một ví dụ điển hình là mối quan hệ giữa huyết áp Y và tuổi tác X của một cá nhân, hoặc mối liên hệ giữa trọng lượng Y của một động vật và lượng thức ăn hàng ngày X. Mối quan hệ này được gọi là hồi quy của Y đối với X.
Hồi quy thường được coi là một bài toán tối ưu, vì mục tiêu là tìm ra giải pháp tối ưu nhất cho sai số và phần dư. Phương pháp phổ biến nhất để tính sai số là phương pháp bình phương cực tiểu, liên quan đến một hàm hợp lý dạng Gauss của các dữ liệu quan sát khi biến ngẫu nhiên không rõ. Bình phương cực tiểu, về cơ bản, là một phương pháp ước lượng tối ưu, như được chứng minh trong định lý Gauss-Markov.
Để giải quyết bài toán tối ưu trong hồi quy, thường sử dụng các thuật toán như gradient descent, thuật toán Gauss-Newton, và thuật toán Levenberg-Marquardt. Các phương pháp xác suất như RANSAC có thể được áp dụng để tìm mô hình tốt nhất cho tập mẫu khi đã có một mô hình tham số hóa của đường cong.
Hồi quy có thể được biểu diễn thông qua các phương pháp ước lượng hợp lý cho các tham số của mô hình. Tuy nhiên, với dữ liệu hạn chế, ước lượng có thể có phương sai lớn (high variance). Các phương pháp Bayesian có thể giúp ước lượng mô hình hồi quy bằng cách giả định phân phối điều kiện trước cho các tham số, bao gồm tất cả thông tin thống kê đã biết. Phân phối điều kiện trước này sau đó được áp dụng cho vector tham số. Phương pháp Bayes có ưu điểm trong việc khai thác toàn bộ thông tin hiện có và cung cấp ước lượng chính xác, không chệch, phù hợp cho các tập dữ liệu nhỏ. Trong thực tế, phương pháp MAP (maximum a posteriori) thường được sử dụng vì nó đơn giản hơn phân tích Bayes đầy đủ, nơi các tham số được chọn để cực đại hóa phân phối điều kiện trước. Phương pháp MAP cũng liên quan đến Nguyên lý Occam's Razor, ưu tiên sự đơn giản khi có nhiều mô hình hồi quy hoặc lý thuyết.
Công thức tổng quát
Chúng ta muốn dự đoán giá trị của một biến ngẫu nhiên Y dựa trên một hoặc nhiều biến ngẫu nhiên khác được gọi là yếu tố. Giả sử là số lượng yếu tố được sử dụng trong dự đoán.
mô tả một không gian xác suất, và là một không gian đo được với là và với ). Chúng ta có thể xác định biến phụ thuộc và . Tiếp theo, hãy đặt là tập hợp các hàm xác định từ với các giá trị thuộc sao cho và là một metric sao cho là một không gian metric đầy đủ.
Chúng ta đang tìm kiếm một hàm đo được sao cho là tối thiểu.
Hồi quy tuyến tính
Hồi quy tuyến tính là một phương pháp rất phổ biến trong thực tế. Chúng ta giả định rằng hàm có mối liên hệ tuyến tính với các biến , do đó chúng ta chỉ cần xác định các hệ số thích hợp.
Giả sử là tập hợp các hệ số của mô hình. Lý thuyết cơ bản của hồi quy tuyến tính là:
Và chúng ta sử dụng một metric để đánh giá như sau:
Mục tiêu của chúng ta là giảm thiểu giá trị của , nghĩa là chúng ta đang tìm cách giảm thiểu sai số giữa dự đoán và giá trị thực tế.
- .
Vì vậy, chúng ta cần xác định các giá trị của . Để thực hiện điều này một cách hiệu quả, có nhiều phương pháp đã được đề xuất, với phương pháp Gauss-Markov là phổ biến nhất, mặc dù nó yêu cầu thêm một số điều kiện bổ sung.
Mô hình Gauss-Markov tuyến tính
Ước lượng bình phương tối thiểu cho các hệ số
Ví dụ minh họa
Ví dụ cơ bản nhất về hồi quy là trường hợp một biến. Chúng ta có một vector giá trị x và một vector khác giá trị y. Nhiệm vụ của chúng ta là tìm một hàm sao cho .
- Giả sử
Giả sử rằng hàm giải pháp của chúng ta thuộc về nhóm các hàm được xác định bởi chuỗi Fourier mở rộng cấp 3 (chuỗi Fourier bậc 3), được mô tả như sau:
với là các hệ số thực. Bài toán này có thể được biểu diễn dưới dạng ma trận như sau:
Khi chúng ta điền vào dạng này các giá trị của chúng ta, chúng ta sẽ nhận được bài toán với dạng Xw = y
Bài toán hiện tại có thể được chuyển đổi thành bài toán tối ưu để tìm tổng cực tiểu của sai số bình phương.

Giải bằng phương pháp bình phương cực tiểu cho kết quả là:
Vì vậy, hàm Fourier bậc ba phù hợp nhất với dữ liệu có công thức như sau:
- Mạng nơ-ron nhân tạo
- Kriging
- Khai phá dữ liệu
- Thống kê
- Audi, R., Ed. (1996) Từ điển Triết học Cambridge. Cambridge, Cambridge University Press. Vấn đề khớp đường cong trang 172-173.
- David Birkes và Yadolah Dodge, Các phương pháp hồi quy thay thế (1993), ISBN 0-471-56881-3
- W. Hardle, Hồi quy phi tham số ứng dụng (1990), ISBN 0-521-42950-1
- J. Fox, Phân tích hồi quy ứng dụng, Các mô hình tuyến tính và các phương pháp liên quan. (1997), Sage
Liên kết tham khảo
- Phân tích hồi quy SixSigmaFirst
- Curve Expert (phần mềm chia sẻ) Lưu trữ 2006-05-07 tại Wayback Machine, khớp các hàm với dữ liệu (giới hạn một biến phụ thuộc và một biến độc lập).
- Khớp đường cong và mặt trực tuyến
- TableCurve2D và TableCurve3D của Systat tự động hóa việc khớp đường cong
- Ứng dụng LMS Lưu trữ 2005-04-08 tại Wayback Machine
- Lựa chọn khác
- Sách giáo khoa về khớp đường cong trực tuyến
