Phân tích cảm xúc trên phản hồi học viên bằng mô hình BERT kết hợp kiến trúc đa kênh CNN-GRU
Nội dung chính của bài viết
Tóm tắt
Phản hồi học viên là một trong những nguồn dữ liệu quý giá để nâng cao chất lượng giảng dạy và cải thiện sự hài lòng người học. Nhiều nghiên cứu về phân tích cảm xúc trên nguồn dữ liệu này đã được thực hiện và mang lại các kết quả đáng ghi nhận. Tuy nhiên, các nghiên cứu trên ngôn ngữ tiếng Việt vẫn còn nhiều hạn chế, liên quan đến số lượng nghiên cứu công bố, mục tiêu cảm xúc hay vấn đề về dữ liệu như mất cân bằng gây khó khăn khi ứng dụng. Nghiên cứu này đề xuất một mô hình kết hợp BERT và kiến trúc đa kênh gồm CNN và GRU. Bằng việc tận dụng ưu điểm từng mạng, hiệu suất bài toán phân tích cảm xúc trên phản hồi học viên tại Việt Nam được kỳ vọng nâng cao. Trong đó, mô hình tập trung cả hai nhiệm vụ phân loại (chủ đề và cực cảm xúc), hỗ trợ đo lường sự hài lòng cụ thể. Đồng thời, khả năng chống mất cân bằng của mô hình được chú trọng nhằm khai thác hiệu quả các bộ dữ liệu sẵn có, giúp tiết kiệm thời gian và tài chính. Thực nghiệm trên bộ dữ liệu UIT-VSFC cho thấy sự cải thiện hiệu suất tại chỉ số F1-Score (Macro) so với nghiên cứu gần đây, tăng 0,01 và 0,0051 lần lượt tại nhiệm vụ chủ đề và cực cảm xúc. Kết quả của nghiên cứu sẽ là một giải pháp hữu ích cho các cơ sở giáo dục, có thể ứng dụng để cải thiện giảng dạy, quản lý danh tiếng, hỗ trợ người học và là động lực để mở rộng nghiên cứu trong tương lai.
Abstract
Student feedback is a valuable data source for enhancing teaching quality and improving learner satisfaction. Numerous studies have conducted sentiment analysis on this data, yielding notable results. However, research in the Vietnamese language still faces significant limitations, including a limited number of published studies, challenges related to the target of sentiment, and data issues such as imbalance that pose difficulties for application. This study proposes a model that combines BERT with a multi-channel architecture consisting of CNN and GRU. By leveraging the strengths of each network, the performance of sentiment analysis on Vietnamese student feedback is expected to improve. The model focuses on classification tasks (topic and sentiment polarity) and supporting specific satisfaction measurements. Additionally, the model's ability to handle data imbalance is emphasized to utilize available datasets, saving time and finance effectively. Experiments on the UIT-VSFC dataset show performance improvements in Macro F1-Score compared to recent studies, with an increase of 0,01 in the topic classification task and 0,0051 in the sentiment polarity task. The study’s result will be a useful solution for educational institutions, which can be applied to improve teaching, reputation management, and learner support and be a motivation for expanding future research.
Từ khóa
Học sâu; Phân tích cảm xúc; Quản lý giáo dục; Xử lý ngôn ngữ tự nhiên
Chi tiết bài viết
Lĩnh vực kinh tế (JEL Codes)
C61 - Optimization Techniques • Programming Models • Dynamic Analysis - C63 - Computational Techniques • Simulation Modeling - C67 - Input–Output Models - Mathematical Methods • Programming Models • Mathematical and Simulation Modeling
Tài liệu tham khảo
Alaparthi, S., & Mishra, M. (2021). BERT: a sentiment analysis odyssey. Journal of Marketing Analytics, 9, 118-126. https://doi.org/10.1057/s41270-021-00109-8
Cach, D. N. , Moreno-García, M. N., De la Prieta, F., Kien, N. V., & Vuong, N. M. (2023). Sentiment analysis for vietnamese - based hybrid deep learning models. In P. G. Bringas et al. (Eds.), Proceedings of Hybrid Artificial Intelligent Systemspp (Vol. 14001, pp. 293–303). Salamanca, Spain. https://doi.org/10.1007/978-3-031-40725-3_25
Cho, K., van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches, Proceedings of SSST-8 Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation (pp. 103–111). Doha, Qatar. https://doi.org/10.3115/v1/W14-4012
Chollet, F. (2021). Deep learning with Python. Simon and Schuster (2nd ed.). Simon and Schuster. https://books.google.com.vn/books?id=mjVKEAAAQBAJ
Chung, J., Gulcehre, C., Cho, K., & Bengio, Y. (2014). Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv. https://doi.org/10.48550/arXiv.1412.3555
Das, J. K., Das, A., & Rosak-Szyrocka, J. (2022). A Hybrid Deep Learning Technique for Sentiment Analysis in E-Learning Platform with Natural Language Processing, Proceedings of 2022 International Conference on Software, Telecommunications and Computer Networks (SoftCOM) (pp. 1-7). Split, Croatia. https://doi.org/10.23919/SoftCOM55329.2022.9911232
Dat, N. Q., & Anh, N. T. (2020). PhoBERT: Pre-trained language models for Vietnamese. arXiv. https://doi.org/10.48550/arXiv.2003.00744
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv. https://doi.org/10.48550/arXiv.1810.04805
Dyulicheva, Y. Y., & Bilashova, E. A. (2021). Learning Analytics of MOOCs based on natural language processing, Proceedings of 4th Workshop for Young Scientists in Computer Science & Software (pp. 187-197). Kryvyi Rih, Ukraine. https://ceur-ws.org/Vol-3077/paper15.pdf
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press. https://books.google.com.vn/books?id=omivDQAAQBAJ
Nguyen, H. Q., Vu, L., & Nguyen, Q. U. (2020). Residual Attention Bi-directional Long Short-term Memory for Vietnamese Sentiment Classification. Journal of Science and Technique-Section on Information and Communication Technology, 9(02). https://doi.org/10.56651/lqdtu.jst.v9.n02.212.ict
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-term memory. Neural Computation, 9(8), 1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735
Huy, H. D., Hang, D. T. T., Kiet, N. V., & Ngan, N. T. L., (2020). A simple and efficient ensemble classifier combining multiple neural network models on social media datasets in Vietnamese. In N. L. Minh, L. C. Mai, & Song, S. (Eds.), Proceedings of the 34th Pacific Asia Conference on Language, Information and Computation, PACLIC 2020 (pp. 420–429), Hanoi, Vietnam. Association for Computational Linguistics. https://aclanthology.org/2020.paclic-1.48/
Kandhro, I. A., Wasi, S., Kumar, K., Rind, M., & Ameen, M. (2019). Sentiment Analysis of Students' Comment by using Long-Short Term Model. Indian Journal of Science and Technology, 12(8), 1-16. https://doi.org/10.17485/ijst/2019/v12i8/141741
Kastrati, Z., Dalipi, F., Imran, A. S., Pireva Nuci, K., & Wani, M. A. (2021). Sentiment analysis of students’ feedback with NLP and deep learning: A Systematic mapping study. Applied Sciences, 11(9). https://doi.org/10.3390/app11093986
Kastrati, Z., Imran, A. S., & Kurti, A. (2020). Weakly supervised framework for aspect-based sentiment analysis on students’ reviews of MOOCs. IEEE Access, 8, 106799-106810. https://doi.org/10.1109/ACCESS.2020.3000739
Kiet, N. V., Vu, N. D., Phu, N. V. X., Tham, T. H. T., & Ngan, N. T. L. (2018). UIT-VSFC: Vietnamese Students’ feedback corpus for sentiment analysis, Proceedings of 2018 10th International Conference on Knowledge and Systems Engineering (KSE) (pp. 19-24). Ho Chi Minh City, Vietnam. https://doi.org/10.1109/KSE.2018.8573337
Lac, L. S., Thin, D. V., Ngan, N. T. L., & Son, T. Q. (2020). A multi-filter BiLSTM-CNN architecture for Vietnamese sentiment analysis. In M. Hernes, K. Wojtkiewicz, & E. Szczerbicki (Eds.), Advances in Computational Collective Intelligence. ICCCI 2020. Communications in Computer and Information Science (vol 1287, pp. 752–763). Springer, Cham. https://doi.org/10.1007/978-3-030-63119-2_61
Liu, B. (2022). Sentiment Analysis and Opinion Mining. Springer Nature. https://doi.org/10.1007/978-3-031-02145-9
Loc, C. V., Viet, T. X., Viet, T. H., Thao, L. H., & Viet, N. H. (2022). A Text Classification for Vietnamese Feedback via PhoBERT-Based Deep Learning. In X. S. Yang, S. Sherratt, N. Dey, A. Joshi (Eds.), Proceedings of Seventh International Congress on Information and Communication Technology (pp 259–272). Springer, Singapore. https://doi.org/10.1007/978-981-19-2394-4_24
Loc, T. T., Linh, L. H., & Phuc, L.D. T. (2020). Sentiment analysis implementing BERT-based pre-trained language model for Vietnamese, Proceedings of 2020 7th NAFOSTED Conference on Information and Computer Science (NICS) (pp. 362-367). Ho Chi Minh City, Vietnam. https://doi.org/10.1109/NICS51282.2020.9335912
Phu, N. V. X., Tham, H. T. T., Kiet, N. V., & Ngan, N. T. L. (2019). Deep learning versus traditional classifiers on Vietnamese students' feedback corpus, Proceedings of 2018 5th NAFOSTED Conference on Information and Computer Science (NICS) (pp. 75-80), Ho Chi Minh City, Vietnam. https://doi.org/10.1109/NICS.2018.8606837
Vu, N. D., Kiet, N. V., & Ngan, N. T. L. Vu(2018). Variants of long short-term memory for sentiment analysis on Vietnamese students’ feedback corpus, Proceedings of 10th International Conference on Knowledge and Systems Engineering (KSE) (pp. 306-311). Ho Chi Minh City, Vietnam. https://doi.org/10.1109/KSE.2018.8573351
Onan, A. (2020). Mining opinions from instructor evaluation reviews: A deep learning approach. Computer Applications in Engineering Education, 28(1), 117-138. https://doi.org/10.1002/cae.22179
Peng, H., Zhang, Z., & Liu, H. (2022). A sentiment analysis method for teaching evaluation texts using attention mechanism combined with CNN-BLSTM model. Scientific Programming. https://doi.org/10.1155/2022/8496151
Quan, V. H., Huy, N. T., Bac, L., & Minh, N. L. (2017). Multi-channel LSTM-CNN model for Vietnamese sentiment analysis, Proceedings of 2017 9th International Conference on Knowledge and Systems Engineering (KSE) (pp. 24-29). Hue, Vietnam. https://doi.org/10.1109/KSE.2017.8119429
Quynh, D. V. X., Laosen, K., & Laosen, N. (2021). An evaluation of the UIT-VSFC Dataset using modern machine learning techniques and word embeddings, Proceedings of 2021 25th International Computer Science and Engineering Conference (ICSEC) (pp. 394-399). Chiang Rai, Thailand. https://doi.org/10.1109/ICSEC53205.2021.9684597
Razinkina, E., Pankova, L., Trostinskaya, I., Pozdeeva, E., Evseeva, L., & Tanova, A. (2018). Student satisfaction as an element of education quality monitoring in innovative higher education institution. E3S Web of Conferences, 33. https://doi.org/10.1051/e3sconf/20183303043
Shaik, T., Tao, X., Dann, C., Xie, H., Li, Y., & Galligan, L. (2023). Sentiment analysis and opinion mining on educational data: A survey. Natural Language Processing Journal, 2. https://doi.org/10.1016/j.nlp.2022.100003
Sindhu, I., Daudpota, S. M., Badar, K., Bakhtyar, M., Baber, J., & Nurunnabi, M. (2019). Aspect-based opinion mining on student’s feedback for faculty teaching performance evaluation. IEEE Access, 7, 108729-108741. https://doi.org/10.1109/ACCESS.2019.2928872
Sutoyo, E., Almaarif, A., & Yanto, I. T. R. (2021). Sentiment analysis of student evaluations of teaching using deep learning approach. In J. H. Abawajy, K. K. R. Choo, & H. Chiroma (Eds.), Proceedings of International Conference on Emerging Applications and Technologies for Industry 4.0 (EATI’2020). Springer, Cham. https://doi.org/10.1007/978-3-030-80216-5_20
Thang, P. C., Nam, N. Q., Thanh, D. C., Hop, D. T., & Kiet, N. V. (2023). ViCGCN: Graph convolutional network with contextualized language models for social media mining in Vietnamese. arXiv. https://doi.org/10.48550/arXiv.2309.02902
Thanh, V., Dat, N. Q., Dai, N. Q., Dras, M., & Johnson, M. (2018). VnCoreNLP: A Vietnamese Natural Language Processing Toolkit. In Y. Liu, T. Paek, M. Patwardhan (Eds.), Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations (pp. 56–60). New Orleans, Louisiana. Association for Computational Linguistics. https://doi.org/10.48550/arXiv.1801.01331
Wankhade, M., Rao, A. C. S., & Kulkarni, C. (2022). A survey on sentiment analysis methods, applications, and challenges. Artificial Intelligence Review, 55(7), 5731-5780. https://doi.org/10.1007/s10462-022-10144-1
Zheng, J., Wang, J., Ren, Y., & Yang, Z. (2020). Chinese sentiment analysis of online education and internet buzzwords based on BERT. Journal of Physics: Conference Series, 1631. https://doi.org/10.1088/1742-6596/1631/1/012034