Шукати за:
Аналіз методів обчислення семантичної відстані для оцінки ефективності природномовних чат-ботів
Повний текст (PDF)
УДК: 004.934.2
Мова публікації: Українська
Stuc. intelekt. 2025; 30; (4):78-87
Анотація: У статті здійснено комплексний аналіз сучасних методів обчислення семантичної відстані між текстовими одиницями з метою оцінювання ефективності природномовних чат-ботів. Розглянуто еволюцію підходів до вимірювання семантичної подібності — від класичних лексико-статистичних методів і статичних векторних вбудовувань до контекстуалізованих моделей глибинного навчання, зокрема BERT та його похідних. Емпіричне дослідження проведено на діалоговому корпусі віртуального психологічного асистента, розробленого для надання психологічної підтримки. Ефективність методів оцінювалася за кількісними метриками класифікації намірів і відбору відповідей, а також за якісною експертною оцінкою адекватності відповідей. Отримані результати свідчать про суттєву перевагу контекстуалізованих моделей, зокрема SimSCE-BERT, над традиційними підходами, такими як word2vec і базовий BERT. Показано, що використання сучасних методів обчислення семантичної відстані сприяє підвищенню як технічної продуктивності чат-ботів, так і сприйманої користувачами якості взаємодії, що є критично важливим для масштабованих систем у сфері психологічної допомоги та інших прикладних доменах.
Ключові слова: семантична подібність, обробка природної мови, чат-боти, векторні вбудовування, BERT, психологічний асистент.
Посилання:
- Wang, Y., Xue, T., & Yang, X. (2025). Exploring the relationship between features calculated from contextual embeddings and EEG band power during sentence reading in Chinese. Frontiers in Neuroscience, 19. https://doi.org/10.3389/fnins.2025.1656519
- Peng Ding, P. D., Peng Ding, D. L., Dan Liu, Z. Z., Zhiyuan Zhang, J. H., & Jie Hu, N. L. (2022). A Novel Discrimination Structure for Assessing Text Semantic Similarity. Internet Technology Journal, 23(4), 709–717. https://doi.org/10.53106/160792642022072304006
- Wang, J., & Dong, Y. (2020). Measurement of Text Similarity: A Survey. Information, 11(9), 421. https://doi.org/10.3390/info11090421
- Dhagat, R., Rawal, A., & Soni, S. (2022). Comparative Evaluation of Semantic Similarity Upon Sentential Text of Varied (Generic) Lengths. In Lecture Notes in Electrical Engineering (pp. 107–122). Springer Nature Singapore. https://doi.org/10.1007/978-981-19-0284-0_9
- Zhou, S., Xu, X., Liu, Y., Chang, R., & Xiao, Y. (2019). Text Similarity Measurement of Semantic Cognition Based on Word Vector Distance Decentralization With Clustering Analysis. IEEE Access, 7, 107247–107258. https://doi.org/10.1109/access.2019.2932334
- Шевченко, А. І., Панок, В. Г., Шевцов, А. Г., Слюсар, В. І., Малий, Р. І., Єрошенко, Т. В., & Назар, М. М. (2024). Розробка віртуального психологічного асистента зі штучним інтелектом у сфері охорони здоров’я. Клінічна та профілактична медицина, (8), 15-27. https://doi.org/10.31612/2616-4868.8.2024.02
- Sharma, K. (2023). 30 Years of Research on Semantic Similarity Measurement. Center for Open Science. https://doi.org/10.31219/osf.io/qpb6d
- Wang, Y. (2022). A Survey on Efficient Processing of Similarity Queries over Neural Embeddings (Version 1). arXiv. https://doi.org/10.48550/ARXIV.2204.07922
- Zhou, S., Xu, X., Liu, Y., Chang, R., & Xiao, Y. (2019). Text Similarity Measurement of Semantic Cognition Based on Word Vector Distance Decentralization With Clustering Analysis. IEEE Access, 7, 107247–107258. https://doi.org/10.1109/access.2019.2932334
- Colla, D., Mensa, E., & Radicioni, D. P. (2020). Novel metrics for computing semantic similarity with sense embeddings. Knowledge-Based Systems, 206, 106346. https://doi.org/10.1016/j.knosys.2020.106346
- Pan, J.-S., Wang, X., Yang, D., Li, N., Huang, K., & Chu, S.-C. (2024). Flexible margins and multiple samples learning to enhance lexical semantic similarity. Engineering Applications of Artificial Intelligence, 133, 108275. https://doi.org/10.1016/j.engappai.2024.108275
- der Brück, T. vor, & Pouly, M. (2024). Estimating Text Similarity based on Semantic Concept Embeddings. arXiv. https://doi.org/10.48550/ARXIV.2401.04422
- Chang, H.-S., Agrawal, A., & McCallum, A. (2021). Extending Multi-Sense Word Embedding to Phrases and Sentences for Unsupervised Semantic Applications (Version 2). arXiv. https://doi.org/10.48550/ARXIV.2103.15330
- Wei, C., Wang, B., & Jay Kuo, C.-C. (2023). Synwmd: Syntax-aware word Mover’s distance for sentence similarity evaluation. Pattern Recognition Letters, 170, 48–55. https://doi.org/10.1016/j.patrec.2023.04.012
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). Proceedings of the 2019 Conference of the North, 4171–4186. https://doi.org/10.18653/v1/n19-1423
- Xiao, Z., Ning, X., & Duritan, M. J. M. (2025). BERT-SVM: A hybrid BERT and SVM method for semantic similarity matching evaluation of paired short texts in English teaching. Alexandria Engineering Journal, 126, 231–246. https://doi.org/10.1016/j.aej.2025.04.061
- Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (Version 1). arXiv. https://doi.org/10.48550/ARXIV.1908.10084
- Xu, Y., Tian, J., Tang, M., Tao, L., & Wang, L. (2024). Document-level relation extraction with entity mentions deep attention. Computer Speech & Language, 84, 101574. https://doi.org/10.1016/j.csl.2023.101574
- Liu, N., Hu, J., & Liang, W. (2023). MIFINN: A novel multi-information fusion and interaction neural network for aspect-based sentiment analysis. Knowledge-Based Systems, 280, 110983. https://doi.org/10.1016/j.knosys.2023.110983
- Wang, T., Shi, H., Liu, W., & Yan, X. (2022). A joint FrameNet and element focusing Sentence-BERT method of sentence similarity computation. Expert Systems with Applications, 200, 117084. https://doi.org/10.1016/j.eswa.2022.117084
- Herbold, S. (2023). Semantic similarity prediction is better than other semantic similarity measures. arXiv. https://doi.org/10.48550/ARXIV.2309.12697
- Wei, C., Wang, B., & Kuo, C.-C. J. (2022). Synwmd: Syntax-Aware Word Mover’s Distance for Sentence Similarity Evaluation. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4145635
- Shen, Z., & Xiao, Z. (2024). A Chinese Short Text Similarity Method Integrating Sentence-Level and Phrase-Level Semantics. Electronics, 13(24), 4868. https://doi.org/10.3390/electronics13244868
- Lee, S., Lee, D., Jang, S., & Yu, H. (2022). Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning. arXiv. https://doi.org/10.48550/ARXIV.2202.13196
- Li, R., Cheng, L., Wang, D., & Tan, J. (2023). Siamese BERT Architecture Model with attention mechanism for Textual Semantic Similarity. Multimedia Tools and Applications, 82(30), 46673–46694. https://doi.org/10.1007/s11042-023-15509-4
- Pang, S., Yao, J., Liu, T., Zhao, H., & Chen, H. (2020). A Text Similarity Measurement Based on Semantic Fingerprint of Characteristic Phrases. Chinese Journal of Electronics, 29(2), 233–241. https://doi.org/10.1049/cje.2019.12.011
- Chen, Q., Wang, W., Zhang, Q., Zheng, S., Deng, C., Yu, H., Liu, J., Ma, Y., & Zhang, C. (2023). Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings. arXiv. https://doi.org/10.48550/ARXIV.2305.10786
- Zhou, K., Ethayarajh, K., & Jurafsky, D. (2021). Frequency-based Distortions in Contextualized Word Embeddings (Version 1). arXiv. https://doi.org/10.48550/ARXIV.2104.08465
- Wang, Z., Dou, J., & Zhang, Y. (2022). Unsupervised Sentence Textual Similarity with Compositional Phrase Semantics (Version 1). arXiv. https://doi.org/10.48550/ARXIV.2210.02284
- Opitz, J., & Frank, A. (2022). SBERT studies Meaning Representations: Decomposing Sentence Embeddings into Explainable Semantic Features (Version 2). arXiv. https://doi.org/10.48550/ARXIV.2206.07023
- Soricut, R., & Ding, N. (2016). Multilingual Word Embeddings using Multigraphs (Version 1). arXiv. https://doi.org/10.48550/ARXIV.1612.04732