Xây dựng mô hình dự đoán điểm chạm của khách hàng dựa trên dữ liệu hành trình mua sắm trực tuyến
Nội dung chính của bài viết
Tóm tắt
Nghiên cứu này tập trung xây dựng mô hình dự đoán điểm chạm trong hành trình mua sắm và dự đoán quyết định mua hàng của khách hàng trên website, góp phần cải thiện chiến lược marketing và cá nhân hóa trải nghiệm người dùng. Bộ dữ liệu sử dụng là hành trình mua sắm trực tuyến của khách hàng trong ngành du lịch, chứa thông tin về các điểm chạm lẫn đặc trưng nhân khẩu học, thu thập từ tháng 5/2015 đến 10/2016. Quy trình phân tích khởi đầu bằng việc áp dụng thuật toán K-Means nhằm phân cụm và xác định các phân khúc khách hàng mục tiêu. Trên cơ sở này, nghiên cứu lần lượt triển khai lọc cộng tác kết hợp phân rã ma trận hạng thấp (Low Rank Matrix Factorization) và huấn luyện Neural networks để dự đoán tần suất xuất hiện của từng điểm chạm trong tương lai. Từ tập dữ liệu dự đoán đó, các mô hình học máy bao gồm Logistic Regression, Decision Tree, Random Forest, KNN và XGBoost được huấn luyện để dự đoán quyết định mua hàng. Kết quả thực nghiệm cho thấy rằng, mô hình Random Forest là phương án vượt trội, đạt độ chính xác 96% cùng các chỉ số F1-score và ROC-AUC cao nhất. Về mặt học thuật, nghiên cứu đóng góp vào lĩnh vực khai phá hành trình khách hàng bằng cách tích hợp hệ thống đề xuất và khai thác quyết định, đồng thời đưa ra mô hình dự đoán thực tiễn có khả năng áp dụng cho nhiều loại hình doanh nghiệp. Định hướng nghiên cứu tương lai đề xuất mở rộng phân tích cho toàn bộ phân khúc khách hàng, đồng thời bổ sung các thuộc tính tương tác như thiết bị truy cập và thời gian truy cập nhằm gia tăng mức độ cá nhân hóa và độ chính xác của hệ thống khuyến nghị.
Abstract
This study focuses on building a predictive model for customer journey touchpoints and purchasing decisions on e-commerce websites, aiming to enhance personalized marketing strategies. The dataset includes online shopping journey data and customer demographic information in the tourism sector collected between May 2015 and October 2016. The research employs K-Means clustering to segment customers and identify target groups. Then, Collaborative Filtering with Low Rank Matrix Factorization is applied, followed by training a Neural Network to predict the frequency of customer touchpoints. Using the predicted frequency data, machine learning models such as Logistic Regression, Decision Tree, Random Forest, KNN, and XGBoost are implemented to predict purchase behavior. The results show that the Random Forest model outperforms others with the highest accuracy (96%), strong F1-score, and ROC-AUC metrics. The study contributes theoretically by integrating process mining and recommendation systems for journey prediction and offers a practical model applicable to businesses seeking data-driven insights into customer behavior. Future research is encouraged to expand prediction to all customer segments and incorporate additional contextual factors such as access devices and interaction duration to improve personalization.
Từ khóa
Dự đoán điểm chạm; Hành trình mua sắm; Hệ thống đề xuất; Website
Chi tiết bài viết
Lĩnh vực kinh tế (JEL Codes)
C38 - Classification Methods • Cluster Analysis • Principal Components • Factor Models - Multiple or Simultaneous Equation Models • Multiple Variables, C45 - Neural Networks and Related Topics - Econometric and Statistical Methods: Special Topics, C88 - Other Computer Software - Data Collection and Data Estimation Methodology • Computer Programs, D12 - Consumer Economics: Empirical Analysis - Household Behavior and Family Economics, M31 - Marketing - Marketing and Advertising
Tài liệu tham khảo
Bernard, G. & Andritsos, P. (2017). A process mining based model for customer journey mapping. In Forum and doctoral consortium papers presented at the 29th International Conference on Advanced Information Systems Engineering (CAiSE 2017) (Vol. 1848, pp. 49-56). CEUR Workshop Proceedings. https://api.unil.ch/iris/server/api/core/bitstreams/4a163d97-833d-454a-a9db-5380c2973948/content
Bernard, G., & Andritsos, P. (2018). CJM-ab: Abstracting customer journey maps using process mining. In J. Mendling & H. Mouratidis (Eds.), Information systems in the big data era (CAiSE 2018, Lecture Notes in Business Information Processing, Vol. 317, pp. 65–80). Springer. https://doi.org/10.1007/978-3-319-92901-9_5
Breiman, L. (2002). Manual on setting up, using, and understanding random forests v3.1. Statistics Department University of California Berkeley.
Breiman, L., Friedman, J., Olshen, R. & Stone, C. J. (1984). Classification and regression trees (1st ed.). Wadsworth, Inc.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785-794). https://doi.org/10.1145/2939672.2939785
Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society: Series B (Methodological), 20(2), 215-232. https://doi.org/10.1111/j.2517-6161.1958.tb00292.x
Dam, N. A. K., Dinh, T. L., & Menvielle, W. (2021). Towards a conceptual framework for customer intelligence in the era of big data. International Journal of Intelligent Information Technologies (IJIIT), 17(4), 64-80. https://doi.org/10.4018/IJIIT.289968
Fawcett, T. (2006). An introduction to ROC analysis. Pattern recognition letters, 27(8), 861-874. https://doi.org/10.1016/j.patrec.2005.10.010
Fix, E., & Hodges, J.L. (1951). Discriminatory analysis: nonparametric discrimination: Consitency properties (Technical Report No. 4). USAF School of Aviation Medicine.
Habets, S. (2020). Predicting a customer’s next touch point from customer journey data [Master thesis, Eindhoven University of Technology]. Netherlands. https://pure.tue.nl/ws/portalfiles/portal/174215023/Habets_S..pdf
Halvorsrud, R., Kvale, K., & Følstad, A. (2016). Improving service quality through customer journey analysis. Journal of Service Theory and Practice, 26(6), 840-867. https://doi.org/10.1108/JSTP-05-2015-0111
Hernandez, S., Alvarez, P., Fabra, J., & Ezpeleta, J. (2017). Analysis of users’ behavior in structured e-commerce websites. IEEE Access, 5, 11941–11958. https://doi.org/11941-11958. 10.1109/ACCESS.2017.2707600
Hu, Y., Koren, Y., & Volinsky, C. (2008). Collaborative filtering for implicit feedback datasets. In Proceeding of the 2008 Eighth IEEE International Conference on Data Mining (pp. 263-272). IEEE. https://doi.org/10.1109/ICDM.2008.22
Kabir, S., Mudur, S. P., & Shiri, N. (2012). Capturing browsing interests of users into web usage profiles. In Intelligent Techniques For Web Personalization And Recommender Systems, AAAI Workshop (pp.19-25). AAAI Press.
Lemon, K. N., & Verhoef, P. C. (2016). Understanding customer experience throughout the customer journey. Journal of Marketing, 80(6), 69-96. https://doi.org/10.1509/jm.15.0420
de Leoni, M., Maggi, F. M. & van der Aalst, W. M. P. (2015). An alignment-based framework to check the conformance of declarative process models and to preprocess event-log data. Information Systems, 47, 258-277. https://doi.org/10.1016/j.is.2013.12.005
Macqueen, J. (1967). Some methods for classification and analysis of multivariate observations. In L. M. L. Cam, J. Neyman (Eds.), Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability (pp. 281-297). http://projecteuclid.org/euclid.bsmsp/1200512992
Mangiaracina, R., Brugnoli, G., & Perego, A. (2009). The ecommerce customer journey: A model to assess and compare the user experience of the ecommerce websites. Journal of Internet Banking and Commerce, 14(3), 1-11.
Melville, P. & Sindhwani, V. (2010). Recommender systems. In: C. Sammut, G. I. Webb (Eds.), Encyclopedia of Machine Learning (pp. 829-838). https://doi.org/10.1007/978-0-387-30164-8_705
Pacuk, A., Sankowski, P., Węgrzycki, K., Witkowski, A., & Wygocki, P. (2016). RecSys Challenge 2016: Job recommendations based on preselection of offers and gradient boosting. Proceedings of the Recommender Systems Challenge (RecSys Challenge ’16). Association for Computing Machinery. https://doi.org/10.1145/2987538.2987544
Ricci, F., Rokach, L., & Shapira, B. (2010). Introduction to recommender systems handbook. Recommender systems handbook (pp. 1-5). Springer. https://doi.org/10.1007/978-0-387-85820-3_1
Rozinat, A., & van der Aalst, W. M. P. (2008). Conformance checking of processes based on monitoring real behavior. Information Systems, 33(1), 64-95. https://doi.org/10.1016/j.is.2007.07.001
Schonenberg, H., Weber, B., van Dongen, B. & van Der Aalst, W. (2008). Supporting flexible processes through recommendations based on history. In M. Dumas, M. Reichert, M. C. Shan (Eds.), Business Process Management: 6th International Conference, BPM 2008, Milan, Italy, September 2-4, 2008 (pp. 51-55), Springer. https://doi.org/10.1007/978-3-540-85758-7_7
Singh, H. B. & Singh, H. K. (2010). Web Data Mining research: A survey. In the 2010 IEEE International Conference on Computational Intelligence and Computing Research (pp. 1–10). IEEE. https://doi.org/10.1109/ICCIC.2010.5705856
Sharkawy, A.-N. (2020). Principle of neural network and its main types: Review. Journal of Advances in Applied & Computational Mathematics, 7, 8-19. https://doi.org/10.15377/2409-5761.2020.07.2
Skulimowski, A. & Kacprzyk, J. (1997). Knowledge, information and creativity support systems: Recent trends, advances and solutions. Proceedings of the KICSS2013-8th International Conference on Knowledge, Information, and Creativity Support Systems, November 7-9, 2013, Kraków, Poland. Springer. https://doi.org/10.1007/978-3-319-19090-7
Terragni, A. & Hassani, M. (2018). Analyzing customer journey with process mining: From discovery to recommendations. 2018 IEEE 6th International Conference on Future Internet of Things and Cloud (FiCloud) (pp. 224-229). IEEE. https://doi.org/10.1109/FiCloud.2018.00040
Tharwat, A. (2020). Classification assessment methods. Applied Computing and Informatics, 17(1), 168-192. https://doi.org/10.1016/j.aci.2018.08.003
Wiethölter, J., Salingré, J., Feldmann, C., Schwanitz, J., & Niessing, J. (2023). Exploring customer journey mining and RPA: Prediction of customers’ next touchpoint. In J. Köpke, O. López-Pintado, R. Plattfaut, J.-R. Rehse, K. Gdowska, F. Gonzalez-Lopez, J. Munoz-Gama, K. Smit, & J. M. E. M. van der Werf (Eds.), Business process management: Blockchain, robotic process automation and educators forum (BPM 2023) (Lecture Notes in Business Information Processing, Vol. 491, pp. 181–196). Springer.. https://doi.org/10.1007/978-3-031-43433-4_12
Wolny, J. & Charoensuksai, N. (2014). Mapping customer journeys in multichannel decision-making. Journal of Direct, Data and Digital Marketing Practice, 15, 317-326. https://doi.org/10.1057/dddmp.2014.24
Các bài báo được đọc nhiều nhất của cùng tác giả
- Trần Sơn Nam, Thái Kim Phụng, Phạm Thế Vinh, Phân tích cảm xúc trên phản hồi học viên bằng mô hình BERT kết hợp kiến trúc đa kênh CNN-GRU , Tạp chí Nghiên cứu Tài chính - Marketing: Tập 16 Số 1: Số 88 (2025)