Mô hình hồi quy bội được sử dụng rộng rãi nhằm định lượng mối quan hệ giữa biến phụ thuộc (Y) và nhiều biến độc lập (X), có dạng:

Trong đó, βo = hằng số; β1, β2, β3,… βp = tham số hồi quy; ε = sai số ngẫu nhiên.
Mục tiêu chính là dự đoán giá trị Y và hiểu rõ tác động của X đến Y thông qua các hệ số hồi quy β. Khi dữ liệu từ thí nghiệm được thiết kế, các hệ số β thường dễ diễn giải nhờ tính chính xác và độc lập cao. Ngược lại, với dữ liệu quan sát không thiết kế (như trong sản xuất), các biến X có thể biến thiên đồng thời (một thành phần tăng lên thì thành phần khác lại giảm xuống), gây ra đa cộng tuyến (multicollinearity), làm cho các ước lượng hệ số kém chính xác và khó giải thích. Sử dụng phần mềm Statgraphics Centurion để phân tích vấn đề đa cộng tuyến, đồng thời minh họa cách áp dụng kỹ thuật hồi quy Ridge nhằm thu được các hệ số hồi quy có ý nghĩa và dễ diễn giải hơn.
Dữ liệu mẫu
Dữ liệu được sử dụng bao gồm thông tin về mẫu ô tô.

Hình 1: Một số thông tin về mẫu
Bước 1: Vẽ biểu đồ dữ liệu
Chọn: Plot – Scatterplots – Matrix Plot

Hình 2: Hộp thoại nhập dữ liệu
Biểu đồ kết quả hiển thị một ma trận các biểu đồ phân tán XY, bao gồm từng cặp biến. Mỗi biến được vẽ trên trục tung của tất cả các ô trong hàng và trên trục hoành của tất cả các ô trong cột. Chọn Smooth/Rotate (Robust LOWESS) để trực quan hóa các mối quan hệ giữa các biến được vẽ trên mỗi trục (Hình 3).

Hình 3: Sơ đồ ma trận
Theo sơ đồ ma trận, hàng trên cùng minh họa mối quan hệ giữa dung tích nhiên liệu (Gallons) và ba biến dự đoán. Kết quả cho thấy dung tích nhiên liệu có xu hướng tăng khi mã lực, trọng lượng hoặc chiều rộng tăng, phản ánh mối quan hệ dương tương đối mạnh. Tuy nhiên, giữa các biến dự đoán cũng tồn tại mối quan hệ chặt chẽ với nhau, hiện tượng này được gọi là đa cộng tuyến.
Bước 2: Tính toán mối tương quan
Hệ số tương quan (ký hiệu r) thể hiện mức độ quan hệ tuyến tính giữa hai biến, với giá trị dao động trong khoảng từ -1 đến +1. Giá trị r = +1 biểu thị mối tương quan dương; r = -1 biểu thị mối tương quan âm; r gần bằng 0 cho thấy hầu như không có mối quan hệ giữa các biến.
Quy trình: Phân tích nhiều biến
Để tính hệ số tương quan trong STATGRAPHICS Centurion, chọn: Describe – Numeric Data – Multiple-Variable Analysis

Hình 4: (a) Hộp thoại nhập dữ liệu; (b) Bảng hệ số tương quan
Giá trị P-Value < 0,05 cho thấy mối tương quan giữa cặp biến đó có ý nghĩa thống kê ở mức 5%. Mối tương quan mạnh nhất (0,8749) là giữa trọng lượng và chiều rộng, do các xe có kích thước rộng thường cũng nặng hơn. Trọng lượng có mối tương quan đặc biệt cao với dung tích nhiên liệu; bên cạnh đó mối tương quan giữa mã lực và chiều rộng với dung tích nhiên liệu đều dương và có ý nghĩa thống kê.
Bước 3: Điều chỉnh mô hình hồi quy bội
• Quy trình: Hồi quy bội
Chọn: Relate – Multiple Factors – Multiple Regression.

Hình 5: (a) Hộp thoại nhập dữ liệu cho hồi quy bội; (b) Tóm tắt nửa trên của phân tích hồi quy bội; (c) Nửa dưới của tóm tắt phân tích hồi quy bội
Mô hình dự đoán dung tích nhiên liệu dựa trên ba biến, các biến đều có tương quan dương với dung tích nhiên liệu, tuy nhiên có hai hệ số hồi quy mang giá trị âm, cho thấy khi mã lực hoặc chiều rộng tăng thì dung tích nhiên liệu giảm, trái với quan sát.
Hình 5b cho thấy biến mã lực không có sự khác biệt đáng kể và có thể loại bỏ khỏi mô hình mà không làm giảm độ phù hợp. Sau khi loại bỏ biến mã lực, phương trình hồi quy thu được là: Gallons = 3.41318 + 1.08907 Weight – 0.556679 Width
Đáng chú ý, giá trị R-Squared hiệu chỉnh (phản ánh tỷ lệ biến thiên của Y) tăng nhẹ từ 69,54% lên 69,88%, chứng tỏ mã lực là biến dư thừa khi trong mô hình đã có trọng lượng và chiều rộng.
• Quy trình: Mô hình tuyến tính tổng quát
Chọn: Relate –Multiple Factors – General Linear Models

Hình 6: a) Hộp thoại nhập dữ liệu cho các mô hình tuyến tính tổng quát; (b) Hộp thoại Đặc tả mô hình cho các mô hình tuyến tính tổng quát; (c) Bảng hệ số mô hình ước tính
Hệ số phóng đại phương sai (VIF) cho thấy phương sai của các hệ số ước lượng tăng khoảng 4,26 lần (Hình 6c). Để trực quan hóa dữ liệu, chọn Graphs → Surface Plot, một mặt phẳng sẽ được hiển thị. Tiếp đó, chọn Smooth/Rotate để điều chỉnh góc nhìn phù hợp. Để bổ sung tính năng cho biểu đồ, vào Pane Options và chọn:
+ Contours Below: hiển thị bản đồ đường đồng mức phía dưới bề mặt.
+ Show Points: hiển thị dữ liệu dưới dạng các ký hiệu điểm.

Hình 7: a) Biểu đồ minh hoạ góc nhìn ban đầu; b) Biểu đồ minh hoạ góc nhìn tốt hơn; c) Biểu đồ minh hoạ các đặc tính được bổ sung.
Tất cả các điểm đều nằm gần một đường chéo kéo dài từ góc dưới bên trái đến góc trên bên phải, khi chiều rộng và mã lực cùng tăng, thì dung tích nhiên liệu cũng tăng theo (Hình 7c).
Bước 4: Thực hiện Ridge Regressio
Ridge Regression là một phương pháp được thiết kế bổ sung độ chệch, giúp tăng độ ổn định của ước lượng, cải thiện độ chính xác dự đoán, và tạo ra mô hình có ý nghĩa thực tiễn hơn. Chọn: Relate – Multiple Factors – Ridge Regression.

Hình 8: Hộp thoại nhập dữ liệu cho Ridge Regression
Kết quả cung cấp bằng chứng trực quan về mức độ ổn định của mô hình khi áp dụng Ridge Regression. Hệ số ước lượng của biến trọng lượng giảm nhanh chóng khi tham số ridge dịch chuyển ra xa khỏi 0. Trong khi đó, hệ số của biến Horsepower – vốn ban đầu không có ý nghĩa đáng kể lại chuyển thành một giá trị dương có ý nghĩa hơn nhiều. Đối với biến Width, hệ số ước lượng thay đổi dấu, từ âm sang dương. Việc lựa chọn tham số ridge ở mức mà các hệ số phóng đại phương sai (VIFs) đã giảm đủ nhỏ và các hệ số mô hình trở nên ổn định là mong muốn. Trong trường hợp này, điều kiện đó dường như đạt được tại giá trị khoảng 0,2.

Hình 9: a) Biểu đồ các hệ số phóng đại phương sai; b) Biểu đồ các hệ số mô hình
Để chọn giá trị cuối cùng cho tham số ridge, nhấn nút Analysis Options trên thanh công cụ phân tích, kết quả hiển thị:

Hình 10: Tóm tắt Phân tích Ridge Regression
Trong mô hình ước lượng, tất cả các hệ số đều dương và các hệ số phóng đại phương sai (VIF) đều nhỏ hơn 1. Điều này cho thấy mô hình dự đoán trở nên hợp lý và trực quan hơn. Để minh họa tác động của hồi quy ridge, xem xét lại mô hình với hai biến Weight và Width. Khi áp dụng tham số ridge = 0,2, thu được phương trình (cả hai hệ số đều mang giá trị dương): Gallons = 0.636895 + 0.624469Weight + 0.170479Width
• Vẽ Biểu đồ Mặt (Surface Plot)
Để so sánh các mô hình được tạo bởi Hồi quy đa biến (Multiple Regression) và Hồi quy ridge (Ridge Regression), vẽ biểu đồ mặt, sau đó sao chép vào StatGallery.
Để tạo biểu đồ mặt, chọn Plot – Surface and Contour Plots, điền đầy đủ thông tin vào hộp thoại và thay thế bằng các hệ số tương ứng của từng mô hình.

Hình 11: Hộp thoại Response Surfaces
Kết quả cho thấy, cả hai mô hình nhìn chung đều tương đồng dọc theo đường chéo kéo dài từ góc dưới bên trái đến góc trên bên phải, nơi tập trung toàn bộ các quan sát. Tuy nhiên, mô hình được xây dựng bằng Ridge Regression (hình bên phải) có bề mặt phẳng hơn đáng kể so với mô hình thu được từ phương pháp bình phương tối thiểu. Đặc biệt, nó không mở rộng tới các giá trị cực đoan tại góc trên bên trái và góc dưới bên phải – những vùng không có dữ liệu quan sát (Hình 12).
Do đó, trong trường hợp cần ngoại suy ra ngoài đường chéo này, mô hình Ridge Regression có khả năng mang lại kết quả đáng tin cậy hơn so với mô hình bình phương tối thiểu.

Hình 12: Hiển thị hai mô hình trong StatGallery
Kết luận
Khi thu thập dữ liệu để xây dựng mô hình hồi quy đa biến, không phải lúc nào cũng có thể thiết kế quá trình thu thập dữ liệu nhằm tránh sự tương quan giữa các biến dự đoán. Trong những trường hợp như vậy, Ridge Regression mang lại một giải pháp để thu được các hệ số mô hình chính xác và có ý nghĩa. Bằng cách chấp nhận một mức độ sai lệch nhỏ trong ước lượng hệ số, độ biến thiên của các ước lượng này thường có thể được giảm đáng kể. Như vậy, mô hình thu được có thể phản ánh rõ ràng và sát thực hơn mối quan hệ thực sự trong dữ liệu.
Vân Anh tổng hợp
----------------------------------------
Tài liệu tham khảo chính
[1] https://online.stat.psu.edu/stat462/node/180/
[2] https://www.statgraphics.com/
---------------------------------------------------------------------------------------------------