Lựa chọn đặc trưng và dự báo rủi ro vỡ nợ doanh nghiệp: Thực nghiệm với mô hình học máy

Nguyễn Minh Nhật1, , Ngô Hoàng Khánh Duy1
1 Trường Đại học Ngân hàng Thành phố Hồ Chí Minh
1
Ngày xuất bản: 30/06/2025
Ngày xuất bản Online: 25/06/2025
Chuyên mục: Tài chính, Ngân hàng, Kế toán, Kiểm toán
DOI: https://doi.org/10.52932/jfmr.v16i3.761

Nội dung chính của bài viết

Tóm tắt

Dự báo rủi ro vỡ nợ (RRVN) là yếu tố quan trọng trong hoạt động tín dụng, giúp các tổ chức xác định sớm nguy cơ và tối ưu hóa danh mục tín dụng. Nghiên cứu tập trung phân tích ảnh hưởng của 04 phương pháp lựa chọn đặc trưng (LCĐT) bao gồm Loại bỏ đặc trưng đệ quy (RFE), Loại bỏ đặc trưng chuyển tiếp (FFS), Loại bỏ đặc trưng ngược (BFE) và Loại bỏ đặc trưng dựa trên hoán vị (PFI) trên 03 mô hình học máy là Hồi quy Logistic, Cây quyết định và LightGBM. Thực nghiệm trên bộ dữ liệu gồm 15.862 doanh nghiệp cho thấy, LightGBM kết hợp với RFE đạt hiệu suất cao nhất, với độ chính xác và điểm F1 vượt trội so với các phương pháp khác. Kết quả nhấn mạnh vai trò quan trọng của LCĐT trong việc nâng cao hiệu suất mô hình dự báo. Ngoài ra, nghiên cứu cũng xác định một số đặc trưng quan trọng nhất ảnh hưởng đến RRVN bao gồm Mức độ phụ thuộc vào nợ vay, Tỷ lệ vòng quay tiền mặt, Mức độ đòn bẩy tài chính và Tổng tài sản trên GNP. Những phát hiện này cung cấp cơ sở khoa học cho các tổ chức tài chính trong việc cải thiện mô hình, tối ưu hóa quyết định cấp tín dụng và kiểm soát rủi ro tốt hơn.

Abstract

Corporate default risk prediction (RRVN) is a crucial factor in credit operations, enabling institutions to identify risks early and optimize their credit portfolios. This study focuses on analyzing the impact of four feature selection methods, including Recursive Feature Elimination (RFE), Forward Feature Selection (FFS), Backward Feature Elimination (BFE), and Permutation Feature Importance (PFI), on three machine learning models: Logistic Regression, Decision Tree, and LightGBM. Experiments on a dataset of 15,862 enterprises show that LightGBM combined with RFE achieves the highest performance, with superior accuracy and F1-score compared to other methods. The results highlight the critical role of feature selection in enhancing predictive model performance. Additionally, the study identifies key features influencing RRVN, including Borrowing Dependency, Cash Turnover Rate, Degree of Financial Leverage, and Total Assets to GNP. These findings provide a scientific basis for financial institutions to improve models, optimize credit decision-making, and enhance risk management.

Chi tiết bài viết

Tài liệu tham khảo

Ahmed, R., Fahad, N., Miah, M. S. U., Hossen, M. J., Morol, M. K., Mahmud, M., & Rahman, M. M. (2024). A novel integrated logistic regression model enhanced with recursive feature elimination and explainable artificial intelligence for dementia prediction. Healthcare Analytics, 6. https://doi.org/10.1016/j.health.2024.100362
Bian, L., Qin, X., Zhang, C., Guo, P., & Wu, H. (2023). Application, interpretability and prediction of machine learning method combined with LSTM and LightGBM-a case study for runoff simulation in an arid area. Journal of Hydrology, 625. https://doi.org/10.1016/j.jhydrol.2023.130091
Chen, D., Ye, J., & Ye, W. (2023). Interpretable selective learning in credit risk. Research in International Business and Finance, 65. https://doi.org/10.1016/j.ribaf.2023.101940
Cao, D.-S., Xu, Q.-S., Liang, Y.-Z., Chen, X., & Li, H.-D. (2010). Automatic feature subset selection for decision tree-based ensemble methods in the prediction of bioactivity. Chemometrics and Intelligent Laboratory Systems, 103(2), 129–136. https://doi.org/10.1016/j.chemolab.2010.06.008
Elghazel, H., & Aussem, A. (2015). Unsupervised feature selection with ensemble learning. Machine Learning, 98, 157–180. https://doi.org/10.1007/s10994-013-5337-8
Fallahpour, S., Lakvan, E. N., & Zadeh, M. H. (2017). Use of combined approach of support vector machine and feature selection for financial distress prediction of listed companies in Tehran stock exchange market. Financial Research Journal, 19(1), 139–156. https://doi.org/10.22059/jfr.2015.52758
Guo, W., & Zhou, Z. Z. (2022). A comparative study of combining tree‐based feature selection methods and classifiers in personal loan default prediction. Journal of Forecasting, 41(6), 1248–1313. https://doi.org/10.1002/for.2856
Han, C., Kang, H., Kim, G., & Yi, J. (2012). Logit regression-based bankruptcy prediction of Korean firms. Asia-Pacific Journal of Risk and Insurance, 7(1). https://doi.org/10.1515/2153-3792.1159
Hajek, P., & Michalak, K. (2013). Feature selection in corporate credit rating prediction. Knowledge-Based Systems, 51, 72–84. https://doi.org/10.1016/j.knosys.2013.07.008
Hegde, S. K., Hegde, R., R, K. P., S, S. S., Marthanda, A. V. G. A., & Logu, K. (2023). Performance analysis of machine learning algorithm for the credit risk analysis in the banking sector. Proceedings of the 2023 7th International Conference on Computing Methodologies and Communication (ICCMC) (pp. 57-63). IEEE. https://doi.org/10.1109/ICCMC56507.2023.10083580
Kaggle. (2024). Corporate Bankruptcy Dataset. https://www.kaggle.com/datasets/kandie2908/corporate-default
Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang, J., & Liu, H. (2017). Feature selection: A data perspective. ACM Computing Surveys (CSUR), 50(6), 1–45. https://doi.org/10.1145/3136625
Lao, Z., He, D., Wei, Z., Shang, H., Jin, Z., Miao, J., & Ren, C. (2023). Intelligent fault diagnosis for rail transit switch machine based on adaptive feature selection and improved LightGBM. Engineering Failure Analysis, 148. https://doi.org/10.1016/j.engfailanal.2023.107219
Lessmann, S., Baesens, B., Seow, H.-V., & Thomas, L. C. (2015). Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research. European Journal of Operational Research, 247(1), 124-136. https://doi.org/10.1016/j.ejor.2015.05.030
Maleki, N., Zeinali, Y., & Niaki, S. T. A. (2021). A k-NN method for lung cancer prognosis with the use of a genetic algorithm for feature selection. Expert Systems with Applications, 164. https://doi.org/10.1016/j.eswa.2020.113981
Muthukrishnan, R., & Rohini, R. (2016). LASSO: A feature selection technique in predictive modeling for machine learning. Proceedings of the 2016 IEEE International Conference on Advances in Computer Applications (ICACA) (pp. 18-20). IEEE. https://doi.org/10.1109/ICACA.2016.7887916
Nguyen, N., & Ngo, D. (2025). Comparative analysis of boosting algorithms for predicting personal default. Cogent Economics & Finance, 13(1). https://doi.org/10.1080/23322039.2025.2465971
Qi, C., Diao, J., & Qiu, L. (2019). On estimating model in feature selection with cross-validation. IEEE Access, 7, 33454-33463. https://doi.org/10.1109/ACCESS.2019.2892062
Ren, K., Fang, W., Qu, J., Zhang, X., & Shi, X. (2020). Comparison of eight filter-based feature selection methods for monthly streamflow forecasting – Three case studies on CAMELS data sets. Journal of Hydrology, 586. https://doi.org/10.1016/j.jhydrol.2020.124897
Rudnicki, W. R., Wrzesień, M., & Paja, W. (2015). All relevant feature selection methods and applications. In U. Stańczyk, L. Jain (Eds.), Feature selection for data and pattern recognition (pp. 11-28). Studies in Computational Intelligence, vol 584. Springer. https://doi.org/10.1007/978-3-662-45620-0_2
Saarela, M., & Jauhiainen, S. (2021). Comparison of feature importance measures as explanations for classification models. SN Applied Sciences, 3. https://doi.org/10.1007/s42452-021-04148-9
Sahu, M., & Dash, R. (2022). A classification model for multispectral forest datatype with the help of a decision tree and wrapper-based forward feature selection technique. In J. P. Sahoo, A. K. Tripathy, M. Mohanty, K. C. Li, & A. K. Nayak (Eds.), Advances in distributed computing and machine learning (pp. 444–456). Lecture Notes in Networks and Systems, vol 302. Springer. https://doi.org/10.1007/978-981-16-4807-6_42
Sanz, H., Valim, C., Vegas, E., Oller, J. M., & Reverter, F. (2018). SVM-RFE: Selection and visualization of the most relevant features through non-linear kernels. BMC Bioinformatics, 19. https://doi.org/10.1186/s12859-018-2451-4
Shi, S., Tse, R., Luo, W., & D’Addona, S., & Pau, G. (2022). Machine learning-driven credit risk: A systematic review. Neural Computing and Applications, 34, 14327–14339. https://doi.org/10.1007/s00521-022-07472-2
Tharwat, A. (2021). Classification assessment methods. Applied Computing and Informatics, 17(1), 168-192. https://doi.org/10.1016/j.aci.2018.08.003
Urbanowicz, R. J., Meeker, M., La Cava, W., Olson, R. S., & Moore, J. H. (2018). Relief-based feature selection: Introduction and review. Journal of Biomedical Informatics, 85, 189–203. https://doi.org/10.1016/j.jbi.2018.07.014
Vishraj, R., Gupta, S., & Singh, S. (2023). Evaluation of feature selection methods utilizing random forest and logistic regression for lung tissue categorization using HRCT images. Expert Systems, 40(8). https://doi.org/10.1111/exsy.13320
Wang, D.-n., Li, L., & Zhao, D. (2022). Corporate finance risk prediction based on LightGBM. Information Sciences, 602, 259-268. https://doi.org/10.1016/j.ins.2022.04.058
Xia, S., & Yang, Y. (2022). An iterative model-free feature screening procedure: Forward recursive selection. Knowledge-Based Systems, 246. https://doi.org/10.1016/j.knosys.2022.108745
Xia, S., & Yang, Y. (2023). A model‐free feature selection technique of feature screening and random forest‐based recursive feature elimination. International Journal of Intelligent Systems, 2023. https://doi.org/10.1155/2023/2400194
Trích dẫn bài báo
Nhật, N. M., & Duy, N. H. K. (2025). Lựa chọn đặc trưng và dự báo rủi ro vỡ nợ doanh nghiệp: Thực nghiệm với mô hình học máy. Tạp chí Nghiên cứu Tài chính - Marketing, 16(3), 73-85. https://doi.org/10.52932/jfmr.v16i3.761

Các bài báo được đọc nhiều nhất của cùng tác giả