Perbandingan Estimator Robust Huber dan Tukey’s Biweight terhadap Berbagai Skema Pencilan dalam Regresi Linier
Abstract
Regresi linier secara umum menggunakan pendekatan Ordinary Least Squares (OLS) namun sering kali mengalami gangguan ketika data mengandung pencilan (outlier), yang dapat menyebabkan estimasi parameter menjadi bias dan tidak akurat. Regresi robust dikembangkan untuk mengatasi kelemahan OLS dengan menurunkan sensitivitas terhadap pencilan. Terdapat dua fungsi kerugian yang sering digunakan dalam regresi robust, yaitu Huber Loss dan Tukey’s Biweight Loss. Penelitian ini bertujuan untuk membandingkan performa dua metode regresi robust, yaitu Huber Loss dan Tukey’s Biweight, dalam menghadapi berbagai skema pencilan. Data simulasi dibangkitkan dengan parameter intersep dan slope masing-masing sebesar 3 dan 2, kemudian ditambahkan pencilan secara sistematis pada variabel X, Y, maupun keduanya, dengan proporsi 10%, 20%, dan 30%. Hasil analisis menunjukkan bahwa Tukey’s Biweight memberikan estimasi parameter yang lebih stabil pada kondisi pencilan ekstrem, terutama saat pencilan terjadi pada variabel Y atau kombinasi X dan Y. Sedangkan, Huber Loss cenderung menghasilkan Mean Squared Error (MSE) yang lebih rendah dalam beberapa kondisi, mencerminkan adanya trade-off antara bias dan variansi. Dengan demikian, Tukey’s Biweight lebih cocok untuk pencilan ekstrem, sedangkan Huber Loss lebih efisien dalam kondisi pencilan ringan hingga sedang.
Linear regression, commonly estimated using the Ordinary Least Squares (OLS) method, is known for its sensitivity to outliers, which can lead to biased and inefficient parameter estimates. Robust regression was developed to overcome the weaknesses of OLS by reducing sensitivity to outliers. Two commonly used loss functions in robust regression are Huber Loss and Tukey’s Biweight Loss. This study aims to compare the performance of these two robust regression methods—Huber Loss and Tukey’s Biweight—in handling various outlier scenarios. Simulated data were generated with intercept and slope parameters set at 3 and 2, respectively, and outliers were systematically introduced to the X variable, the Y variable, or both, in proportions of 10%, 20%, and 30%. The analysis results indicate that Tukey’s Biweight provides more stable parameter estimates under extreme outlier conditions, especially when outliers occur in the Y variable or in both X and Y. Meanwhile, Huber Loss tends to yield lower Mean Squared Error (MSE) in certain conditions, reflecting a classic trade-off between bias and variance. Therefore, Tukey’s Biweight is more suitable for extreme outliers, whereas Huber Loss is more efficient under mild to moderate outlier conditions.
References
Damayanti, R., & Susanti, Y. (2022). Perbandingan Regresi Robust M-Estimator dengan Pembobot Huber dan Tukey pada Data Tingkat Kemiskinan di Indonesia. Prosiding Seminar Nasional Statistika (Semnas Statistika), Universitas Islam Bandung.
Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models (3rd ed.). Sage Publications.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
Huber, P. J. (1981). Robust Statistics. New York: John Wiley & Sons.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning (2nd ed.). Springer.
Latifa, N. (2019). Analisis Regresi Robust Estimasi-M pada Data Produksi Padi dengan Pembobot Huber, Tukey, dan Hampel di Kabupaten Cirebon tahun 2011–2016 (Skripsi, Universitas Jenderal Soedirman). https://repository.unsoed.ac.id/17915
Li, G., Zhong, S., & Zhu, Y. (2021). Robust Regression Estimation Using Adaptive Huber Loss. Statistics & Probability Letters, 173, 109073.
Maronna, R. A., Martin, R. D., & Yohai, V. J. (2019). Robust Statistics: Theory and Methods (with R) (2nd ed.). Wiley.
Pradewi, E. D., & Sudarno, S. (2012). Kajian Estimasi-M IRLS Menggunakan Fungsi Pembobot Huber dan Bisquaret Tukey pada Data Ketahanan Pangan di Jawa Tengah. Evaluasi Regresi Robust Estimasi-M dengan Fungsi Huber dan Tukey pada Data Ketahanan Pangan. Media Statistika, 5(1), 1–9.
https://doi.org/10.14710/medstat.5.1.1-10
Ranglani, H. (2024). Empirical Analysis of The Bias–Variance Trade off Across Machine Learning Models. Machine Learning and Applications: An International Journal, 11(4), 1–12. 10.5121/mlaij.2024.11401
Rousseeuw, P. J., & Leroy, A. M. (1987). Robust Regression and Outlier Detection. Wiley.
Wu, Z., & Benkeser, D. (2022). A Huber Loss Based Super Learner with Applications to Healthcare Expenditures. arXiv preprint.
Yan, X., & Su, X. G. (2019). Linear Regression Analysis: Theory and Computing (2nd ed.). Springer.
Zhou, W., Song, Q., & Wei, Y. (2017). Adaptive Robust Regression for High-Dimensional Data. Journal of Multivariate Analysis, 157, 53–66.
