Штучний інтелект

Науковий журнал

ISSN 2710-1673

ONLINE: ISSN 2710-1681

Виберіть свою мову


Інтелектуальна аналітична система як інструмент забезпечення відтворюваності біомедичних обчислень

Бардадим Т.О.1, Горбачук В.М.2, Новоселова Н.А.3, Осипенко С.П.1, Скобцов В.Ю.1
1 V.M. Glushkov Institute of Cybernetics, NAS of Ukraine
2 Інститут кібернетики ім. В.М. Глушкова НАН України
3 Об’єднаний інститут проблем інформатики НАН Білорусі

Повний текст (PDF)

УДК: 519.8
Мова публікації: Українська
Stuc. intelekt. 2020; 25; (3):65-78

Анотація: Підсумовано досвід використання прикладних контейнеризованих біомедичних програмних засобів у хмарному середовищі. Вказано шляхи забезпечення відтворюваності наукових обчислень при використанні сучасних технологій наукових розрахунків. Описано основні підходи до попередньої обробки та інтеграції біомедичних даних у рамках інтелектуальної аналітичної системи. В умовах пандемії успіхи системи охорони здоров’я суттєво залежать від регулярного впровадження ефективних засобів досліджень і моніторингу стану населення. Чим раніше вдається виявити ризики появи захворювання, тим ефективніше може йти процес профілактичних заходів або лікування. У даній публікації йдеться про створення прототипу такого засобу в рамках проєкту «Розробка методів, алгоритмів і інтелектуальної аналітичної системи для обробки й аналізу різнорідних клінічних та біомедичних даних з метою вдосконалення діагностики складних захворювань» (М/99-2019, M/37-2020 за підтримки Міністерства освіти та науки України), що виконується Інститутом кібернетики імені В.М.Глушкова НАН України спільно з Об’єднаним інститутом проблем інформатики НАН Білорусі (Ф19УКРГ-005 за підтримки Білоруського республіканського фонду фундаментальних досліджень). Страховики, що входять у ринок, можуть страхувати переважно низькі ризики, сприяючи частішим змінам страховиків з боку страхувальників і змішуючи загальний ринок страхування. Коригувачами ризику можуть бути соціально-демографічні змінні. Оскільки вік і стать мають відносно невелику пояснювальну спроможність, то вивчалися інші соціально-демографічні змінні − сімейний статус, пенсійний статус, статус інвалідності, освітній рівень, рівень доходу. Оскільки страховики мають інтерес до вигідних діагнозів для своїх страхувальників, то також мають інтерес до можливостей трактування відповідної інформації − перекодування інформації: страховики можуть заохочувати своїх страхувальників консультуватися з лікарями, щоб відбирати більше діагнозів. Багато країн і систем охорони здоровʼя використовують діагностичну інформацію для визначення відшкодування провайдеру відповідних послуг, відкриваючи необхідні для цього дані. Для обробки й аналізу цих даних розробляються програмні реалізації побудови класифікаторів, виділення інформативних ознак, опрацювання різнорідних медико-біологічних змінних для проведення наукових досліджень у галузі клінічної медицини. У статті підсумовано досвід використання прикладних контейнеризованих біомедичних програмних засобів у хмарному середовищі. Вказано шляхи забезпечення відтворюваності наукових обчислень при використанні сучасних технологій наукових розрахунків. Зокрема, увага привертається до контейнеризації біомедичних додатків (технології Docker, Singularity), за рахунок чого досягається відтворюваність середовища для виконання обчислень (використання ідентичних програмних засобів та бібліотек), технології конвеєризації, що допомагає організувати обчислення в потоковому режимі, та технології параметризації обчислювального середовища, що дозволяє, за необхідності, створювати ідентичне обчислювальне середовище. Описано основні підходи до попередньої обробки та інтеграції біомедичних даних в рамках інтелектуальної аналітичної системи. Досвід використання розробленого лінійного класифікатора, набутий при його тестуванні на штучних та реальних даних, дозволяє зробити висновок про декілька переваг, які надає контейнеризована форма створеного додатку: вдається забезпечити доступ до реальних даних, розташованих у хмарних середовищах; забезпечується можливість виконання обчислень для розв’язування дослідницьких задач на хмарних ресурсах як за допомогою розроблених засобів, так і за допомогою хмарних сервісів; така форма організації досліджень робить числові експерименти відтворюваними, тобто будь-який інший дослідник може порівняти результати роботи своїх розробок на конкретних даних, які вже вивчали інші, з метою перевірити зроблені висновки та технічні можливості нових розробок; з’являється універсальна можливість використовувати розроблені засоби на технічних пристроях різного класу від персонального комп’ютера до потужного кластера.

Ключові слова: класифікатор; хмарний сервіс; контейнеризований додаток; дані експресії генів; ізольоване програмне середовище; відтворюваність обчислень; біомаркер

Посилання:

  1. Knopov P.S., Norkin V.I., Atoyev K.L., Gorbachuk V.M., Kyryliuk V.S., Bila H.D., Samosyonok O.S., Bogdanov O.V. (2020). Some approaches to the use of stochastic models of epidemiology to the COVID-19 problem. Kyiv: V.M.Glushkov Institute of Cybernetics, Retrieved from http://incyb.kiev.ua/archives/3988/dejaki-pidhodi-vikoristannja-stohastichnih-modelej-epidemiologii-do-problemi-covid-19/ (In Ukrainian).
  2. Gorbachuk V., Gavrilenko S. (2020). Analysis for dynamics of COVID-19 spreading in Ukraine and neighboring countries on May 1–10, 2020. Global and regional problems of informatization in society and nature using 2020. Kyiv: National University of Life and Environmental Sciences of Ukraine, 56–60. (In Ukrainian).
  3. Gorbachuk V.M., Dunaievskyi M.S., Suleimanov S.-B. (2020). Management and administration in the field of health care services. Management andadministration in the field of services: selected examples. T.Pokusa, T.Nestorenko (eds.) Opole: Academy of Management and Administration, 268−279. (In Ukrainian).
  4. Gorbachuk V.M., Suleimanov S.-B., Batih L.O.(2020). Decision making criteria in the branch of health care. Measurement and control in complex systems. Vinnytsia: VNTU, 149–151.(In Ukrainian).
  5. Vorontsov K.V. Mathematical methods of learning by precedents (Machine Learning Theory) (in Russian), Retrieved from: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf
  6. Gupal A.M., Sergienko I.V. Symmetry in DNA. Methods for Discrete Sequences Recognition. Kyiv. Naukova Dumka (in Russian).
  7. Baldi P., Hatfield W.G. (2011). DNA Microarrays and Gene Expression. From Experiments to Data Analysis and Modeling. Cambridge University Press.
  8. Kuhn M., Johnson K. (2013). Applied predictive modeling. New York: Springer.
  9. Heath L.S., Ramakrishnan N. (2010). Problem solving handbook in computational biology and bioinformatics. NY: Springer Science & Business Media.
  10. Ioannidis J. (2005). Why Most Published Research Findings Are False. PLoS Medicine, vol. 2, no. 8, p. 124.
  11. Baker M. (2016). Reproducibility crisis? Nature, vol. 26, no. 533, 353-66.
  12. Strozzi F. et al. (2019). Scalable workflows and reproducible data analysis for genomics. Evolutionary Genomics, 2nd ed., New York, NY: Humana Press, 723-745.
  13. Zhuravlev Y., Laptin Y., Vinogradov A., Zhurbenko N., Lykhovyd O., Berezovskyi O. (2017). Linear classifiers and selection of informative features. Pattern Recogn. and Image Anal., vol. 27, no. 3, 426-432.
  14. Zhuravlev Y., Laptin Y., Vinogradov A. (2014). Comparison of Some Approaches to Classification Problems, and Possibilities to Construct Optimal Solutions Efficiently. Pattern Recogn. and Image Anal., vol. 24, no. 2, 189-195.
  15. Zhurbenko N.G. (2020). Linear classifier and projection on polytop. Cybern. Syst. Anal., vol. 56, no. 3, 1-8.
  16. Shor N.Z., Zhurbenko N.G. (1971). A minimization method using the operation of extension of the space in the direction of the difference of two successive gradients. Cybernetics, vol. 7, 450-459.
  17. Shor N.Z. (1998). Nondifferentiable Optimization and Polynomial Problems. London: Kluwer Acad. Publ.
  18. Laptin Yu.P. (2016). Exact penalty functions and convex extensions of functions in decomposition schemes in variables. Cybernetics and Systems Analysis, vol. 52, 85–95. DOI: 10.1007/s10559-016-9803-8.
  19. Laptin Yu.P., Bardadym T.A. (2019). Problems related to estimating the coefficients of exact penalty functions. Cybernetics and Systems Analysis, vol. 55, no. 3, 400-412. DOI:10.1007/s10559-019-00147-2.
  20. Chang, Chih-Chung; Lin, Chih-Jen LIBSVM – A Library for Support Vector Machines. Retrieved from https://www.csie.ntu.edu.tw/~cjlin/libsvm/.
  21. BLAS (Basic Linear Algebra Subprograms) .Retrieved from http://www.netlib.org/blas/.
  22. LAPACK—Linear Algebra PACKage. Retrieved from http://www.netlib.org/lapack/.
  23. Free software machine learning library for the Python programming language. Retrieved fromhttps://scikit-learn.org/stable/index.html
  24. Tools for creation of isolated Linux-containers. Retrieved from https://www.docker.com/
  25. The Cancer Genomics Cloud. Retrieved fromhttp://www.cancergenomicscloud.org/
  26. The Cancer Genome Atlas (TCGA). Retrieved from https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
  27. Novoselova N.A., Tom I.E. (2018). Integrated network approach to protein function prediction. The Scientific Journal of Riga Technical University. Information Technology and Management Science, vol. 21, 98–103. DOI:10.7250/itms-2018-0016
  28. Tom I.E. (2016). Information technologies in the analysis of medical data. Science and innovations, no. 3, 28-31.
  29. Novoselova N.A., Tom I.E. (2016). Method for constructing clusters in genetic data. Informatika, no.1(49), 64-74.
  30. Novoselova N.A., Tom I.E. (2013). Algorithm for ranking features for detecting biomarkers in gene expression data. Artificial Intelligence, no. 3, 58-68.
  31. Novoselova N.A., Tom I.E., Ablameyko S.V.(2011). Evolutionary design of the classifier ensemble. Artificial Intelligence, no. 3, 429-438.
  32. Bonnal R. et al. (2019). Sharing Programming Resources Between Bio* Projects. Evolutionary Genomics, 2nd ed., New York, NY: HumanaPress, 747-766. DOI: 10.1007/978-1-4939-9074-0_25

Переглянути повний текст статті (PDF)