Штучний інтелект

Науковий журнал

ISSN 2710-1673

ONLINE: ISSN 2710-1681

Виберіть свою мову


Метод машинного навчання для ідентифікації парафрази

Марченко О.О.1, Никоненко А.О.2, Россада Т.В.2, Мельников Є.А.2
1 Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
2 Київський національний університет імені Тараса Шевченка

Повний текст (PDF)

УДК: 68Т50
Мова публікації: Українська
Stuc. intelekt. 2016; 21; (3):128-136

Анотація: У роботі описаний новий ефективний алгоритм ідентифікації парафрази, розроблений з використанням машинного навчання. Архітектура системи має форму багатошарового класифікатора, де класифікатори нижнього рівня приймають рішення про факт наявності або відсутності парафрази в парах речень, відповідно до їхніх індивідуальних стратегій, а супер-класифікатор верхнього рівня приймає остаточне рішення. Експерименти показали оцінки точності визначення парафрази, співставні з кращими існуючими в світі системами.

Ключові слова: машинне навчання, аналіз природномовних текстів, визначення парафрази

Посилання:

  1. Dolan B., Quirk C., Brockett C. Unsupervised construction of large paraphrase corpora: exploiting massively parallel news sources. In Proceedingsofthe20thInternationalConferenceon Computational Linguistics, 2004.
  2. Potthast M., Stein B., Barron-Cedeno A., Rosso P. An Evaluation Framework for Plagiarism Detection. In Proceedings of COLING, pp. 997–1005, 2010.
  3. Wan S., Dras M., Dale R., Paris C. Using Dependency-based Features to Take the ”Para-farce” out of Paraphrase. In Australasian Language Technology Workshop, pp. 131–138, 2006.
  4. Madnani N., Tetreault J., Chodorow M. Re-examining machine translation metrics for paraphrase identification. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 182–190, 2012.
  5. Fellbaum C. WordNet: An Electronic Lexical Database. MIT Press, 1998.
  6. Das D., Smith N.A. Paraphrase identification as probabilistic quasi-synchronous recognition. In Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguisticsand the 4 th International Joint Conference on Natural Language Processing of the AFNLP, pp. 468–476, 2009.
  7. Hassan S. Measuring Semantic Relatedness Using Salient Encyclopedic Concepts. Ph.D. thesis, University of North Texas, Denton, Texas, USA, 2011.
  8. Guo W., Diab M. Modeling sentences in the latent space. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp. 864–872, 2012.
  9. He, Hua, Gimpel K., Lin J. Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks, Proceedings of EMNLP 2015, Lisbon, Portugal, pp. 1576-1586.
  10. Cheng J., Kartsaklis D. Syntax-Aware Multi-Sense Word Embeddings for Deep Compositional Models of Meaning, Proceedings of EMNLP 2015, Lisbon, Portugal, pp. 1531-1542.
  11. Ji Y., Eisenstein J. Discriminative Improvements to Distributional Sentence Similarity, Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2013), Seattle, Washington, USA, pp. 891—896.
  12. Madnani N., Tetreault J., Chodorow M. Re-examining Machine Translation Metrics for Paraphrase Identification, Proceedings of 2012 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2012), pp. 182-190.
  13. Papineni K., Roukos S., Ward T., Zhu W.J. BLEU: A Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL, 2002.
  14. Doddington G. Automatic Evaluation of Machine Translation Quality using N-gram Co-occurrence Statistics. In Proceedings of HLT, pp. 138–145, 2002.
  15. Denkowski M., Lavie M. Extending the METEOR Machine Translation Metric to the Phrase Level. In Proceedings of NAACL, 2010.
  16. Parker S. BADGER: A New Machine Translation Metric. In Proceedings of the Workshop on Metrics for Machine Translation at AMTA, 2008.
  17. Никоненко А.О. Дослідження статистичної схожості-зв’язності // Вісник КНУ імені Тараса Шевченка, серія фізико-математичні науки. — 2016. — № 1 — C. 131—136.
  18. [Електронний ресурс]. – Режим доступу: http://scikit-learn.org/stable/modules/feature_selection.html
  19. [Електронний ресурс]. – Режим доступу: https://www.microsoft.com/en-us/download/details.aspx?id=52398
  20. [Електронний ресурс]. –Режим доступу: https://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_(State_of_the_art))

Переглянути повний текст статті (PDF)