Штучний інтелект

Науковий журнал

ISSN 2710-1673

ONLINE: ISSN 2710-1681

Виберіть свою мову


Система визначення авторства тексту

Марченко О.О.1, Никоненко А.О.2, Россада Т.В.2, Мельников Є.А.2
1 Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
2 Київський національний університет імені Тараса Шевченка

Повний текст (PDF)

УДК: 68Т50
Мова публікації: Українська
Stuc. intelekt. 2016; 21; (2):77-85

Анотація: Було розроблено систему ідентифікації та перевірки авторства документа, побудовану на основі машинного навчання. Оригінальність моделі обумовлена запропонованим унікальним профілем ознак автора, що дозволив, із застосуванням методу опорних векторів (SVM), отримати високі показники точності.

Ключові слова: ідентифікація авторства, машинне навчання, метод опорних векторів

Посилання:

  1. Scikit-learn http://scikit-learn.org/stable/
  2. Numpy http://www.numpy.org/
  3. Fissette, M. Author identification in short texts. Thesis, Department of Artificial Intelligence, 2010, Radboud University.
  4. George K. Mikros and Kostas Perifanos Authorship Identification in Large Email Collections: Experiments Using Features that Belong to Different Linguistic Levels - Notebook for PAN at CLEF 2011.
  5. Rachel M. Green, John W. Sheppard Comparing Frequency- and Style-Based Features for Twitter Author Identification// Proceedings of the Twenty-Sixth International FLAIRS, St. Pete Beach, Florida, USA, 2013, May 22-24.
  6. Roman Kern Grammar Checker Features for Author Identification and Author Profiling// Notebook for PAN at CLEF 2013.
  7. Zheng, Rong, Li, Jiexun, Huang, Zan and Chen, Hsinchun. A Framework for Authorship Identification of Online Messages: Writing Style Features and Classification Techniques. Journal of the American Society for Information Science and Technology (JASIST), 57(3):378-393 (2006).
  8. Tie-Yun Qian, Bing Liu, Qing Li, Jianfeng Si Review Authorship Attribution in a Similarity Space. Journal of ComputerScience and Technology.2015. 30. pp.1200-1213.
  9. Sindhu Raghavan, Adriana Kovashka, and Raymond Mooney Authorship attribution using probabilistic context-free grammars. In Proceedings of ACL-2010, pages 38-42.
  10. Никоненко А.О., Дослідження статистичної схожості-зв’язності // Вісник КНУ імені Тараса Шевченка, серія фіз..-мат.науки. ˗ 2016. ˗ № 1 ˗ C. 131-136.
  11. https://unplag.com/blog/
  12. Lewis, D. D., Yang, Y., Rose, T. G., & Li, F. (2004). RCV1: A new benchmark collection for text categorization research// The Journal of Machine Learning Research, 5, 361-397.

Переглянути повний текст статті (PDF)