Штучний інтелект

Науковий журнал

ISSN 2710-1673

ONLINE: ISSN 2710-1681

Виберіть свою мову


Автоматизований пошук іменованих сутностей у нерозмічених текстах українською мовою

Глибовець А.М.1
1 Національний університет «Києво-Могилянська академія»

Повний текст (PDF)

УДК: 681.3
Мова публікації: Українська
Stuc. intelekt. 2017; 22; (2):45-51

Анотація: У роботі описано створений та реалізований алгоритм пошуку іменованих сутностей у текстах українською мовою. Створені програмні інструменти дозволяють виділяти іменовані сутності та зв'язки між ними в графічному режимі. Утиліту реалізовано у вигляді веб-застосунку. За допомогою цього програмного інструментарію створено корпус анотованих NER сутностей текстів у кількості 122 тексти. Проставлено такі види сутностей як персони, організації та географічні об’єкти. Корпус складається з 2731 іменованої сутності.

Ключові слова: іменовані сутності, обробка природного тексту, виділення іменованих сутностей.

Посилання:

  1. «CoNLL 2017 | CoNLL.». [Електронний ресурс].URL: http://www.conll.org/ (Дата звернення 4червня. 2017).
  2. «Message Understanding Conference - 6: A Brief History - NYU.» [Електронний ресурс]. URL:http://nlp.cs.nyu.edu/muc/muc6-history-coling.ps. (Дата звернення 27травня. 2017).
  3. David Crystal. «A dictionary of linguistics and phonetics (sixth edition)», 2008.
  4. «PCRE - Perl Compatible Regular Expressions.» [Електронний ресурс] URL: http://www.pcre.org/.(Дата звернення 04.06.2017)
  5. «LanguageTool.Org.» [Електронний ресурс] URL: https://www.languagetool.org/. (Дата звернення04.06.2017)
  6. MUC-6. [Електронний ресурс].URL: http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html (Датазвернення 29.05.2017)
  7. A Borthwick- Ph. D. Thesis New York University, 1999 - A Maximum Entropy Approach to NamedEntity Recognition
  8. David Pierce and Claire Cardie. 2001. Limitations of co-training for natural language learning fromlarge datasets. EMNLP.
  9. Radu Florian, Abe Ittycheriah, Hongyan Jing, and Tong Zhang. 2003. Named entity recognitionthrough classifier combination. In Proceedings of the seventh conference on Natural language learning atHLT-NAACL 2003 - Volume 4 (CONLL '03), Vol. 4. Association for Computational Linguistics,Stroudsburg, PA, USA, 168-171.
  10. Huong Thanh Le, Luan Van Tran, Xuan Hoai Nguyen, and Thi Hien Nguyen. 2015. OptimizingGenetic Algorithm in Feature Selection for Named Entity Recognition. In Proceedings of the SixthInternational Symposium on Information and Communication Technology (SoICT 2015). ACM, NewYork, NY, USA, 11-16.
  11. «GLR parser - Wikipedia.» [Електронний ресурс]. URL: https://en.wikipedia.org/wiki/GLR_parser.(Дата звернення 29.05.2017)
  12. “Yargy is a GLR-parser, that uses russian morphology for facts extraction process, and written in pure python”.[Електронний ресурс]. URL: https://github.com/bureaucratic-labs/yargy (Дата звернення 29.05.2017)
  13. «zik.ua Analytics - Market Share Stats & Traffic Ranking - SimilarWeb.» [Електронний ресурс]. URL:https://www.similarweb.com/website/zik.ua. (Дата звернення 29.05.2017)
  14. «brat rapid annotation tool.» [Електронний ресурс]. URL: http://brat.nlplab.org/. (Дата звернення 29.05.2017)
  15. Метод обчислення семантичної близькості для слів природної мови / А. В. Анісімов, М. М.Глибовець, О. О. Марченко, В. К. Кисенко // Наукові записки НаУКМА. Комп'ютерні науки. -2011. - Т. 125. - С. 8-12.

Переглянути повний текст статті (PDF)