Шукати за:
Визначення ознак авторства природномовних текстів
Повний текст (PDF)
УДК: 004.93+519.25
Мова публікації: Українська
Stuc. intelekt. 2018; 23; (3): 27-35
Анотація: Досліджено можливості встановлення авторства природномовних текстів та їх фрагментів методом класифікації за найменшою відстанню у просторі образів. Образи у n-мірному Евклідовому просторі формуються за ознаками вимірювань методами статистичного та рекурентного аналізу, показниками складності тексту. Метод рекурентного аналізу часових рядів адаптовано до аналізу природномовних текстів. Встановлено, що визначені ознаки мають недостатньо високу ефективність при визначенні авторства; у 85% випадків хоча б один з методів дозволяє встановити авторство; модифікований метод рекурентного аналізу має той же рівень ефективності, як статистичний та аналіз складності тексту.
Ключові слова:
Посилання:
- Wimmer, G., Altmann, G., Hřebíček, L,Ondrejovič, S., Wimmerová, S. (2003) Úvod doanalýzy textov. Bratislava, – 344 p.
- Popesku, I.I., Altmann, G. (2006) Some aspects ofword frequencies. Glottometrics. №13, – P. 23-46.
- Köhler, R., Altmann, G. (2005) Aims and Methodsof Quantitative Linguistics. Problems ofQuantitative Linguistics. Chernivci, – P. 12-42.
- Перебийніс, В.С. (2002) Статистичні методи длялінгвістів: Навчальний посібник. Вінниця, – 168 с.
- Alekseev, P.M. (2005) Frequency dictionaries.Quantitative Linguistik : ein internationalesHandbuch = Quantitative linguistics : aninternational handbook/ edited by Reinhard Kohler,Gabriel Altmann, Rajmund G. Piotrowski. Berlin –New York. – P. 312-324.
- Popescu, I. (2009) Word frequency studies. Berlin–New York, – 276 p.
- Сухорольська, С.М., Федоренко, О.І. (2009)Методи лінгвістичних досліджень: Навч.посібник. Львів, – 348 с.
- Чатуев, М.Б., Чеповский, А.М. (2011)Частотные методы в компьютернойлингвистике. – М.: МГУП. – 88 с.
- Фоменко, В.П., Фоменко, Т.Г. (1996). Авторскийинвариант русских литературных текстов. Новаяхронология Греции: Античность в средневековье.Т. 2. М.: Изд-во МГУ, – С. 768-820.
- Баевский, В.С. (2001) Лингвистические,математические, семиотические икомпьютерные модели в истории и теориилитературы. М., – 312 с.
- Бук, С. (2011) Слов’янський досвід укладаннячастотних словників мови письменника.Проблеми слов’янознавства. Львів, – С. 217-224.
- Бузикашвили, Н.Е., Самойлов, Д.В., Крылова,Г.А. (2000) N-граммы в лингвистике. Сборник:Методы и средства работы с документами.М.: Диториал УРРС, – 376 с.
- Тарануха, В.Ю. (2014) Использованиекомбинированных критериев для автоматизированного определения заимствований.«Инновации в науке»: сборник статей поматериалам XXXII международной научнопрактической конференции. Новосибирск: Изд.«СибАК». – С. 15-18.
- Кожина, М.Н., Дускаева, Л.Р.,Салимовский, В.А. (2008) Стилистика русскогоязыка. М.: Флинта: Наука. 464 с.
- William, B., Cavnar, John M. (1994) Trenkle NGram-Based Text Categorization. Michigan, –P. 161–175.
- Рогушина, Ю.В. (2007) Использованиекритериев оценки удобочитаемости текста дляпоиска информации, соответствующейреальным потребностям пользователя.Проблеми програмування. Київ, – С. 76-88.
- Zbilut, J.P., Webber, Jr.C.L. (1992) Embeddingsand delays as derived from quantification ofrecurrence plots. Physics Letters A.– V.171. № 3-4.– P. 199–203.
- Ту, Дж., Гонсалес, Р. (1978) Принципыраспознавания образов. М., – 411 с.
- Киселев, В.Б. (2006) Рекуррентный анализ –теория и практика. Научно-техническийвестник информационных технологий, механикии оптики. №29, – СПб. – С. 118-127.