Штучний інтелект

Науковий журнал

ISSN 2710-1673

ONLINE: ISSN 2710-1681

Виберіть свою мову


Розпізнавання та підрахунok об'єктів на зображенні за допомогою архітектури yolov3

Грабовський В.А.1, Кметь О.Я.1
1 Львівський національний університет імені Івана Франка

Повний текст (PDF)

УДК: 004.931; 004.932.2
Мова публікації: Українська
Stuc. intelekt. 2021; 26; (2):42-53

Анотація: Представлена програма, яка здійснює пошук п’яти видів плодів на зображеннях фруктових дерев, класифікує їх та підраховує їх кількості. При її створенні була врахована вимога можливості роботи як у фоновому режимі, так і в режимі реального часу та ідентифікувати потрібні об’єкти з достатньо високою швидкістю. Програма також повинна мати можливість навчатися за допомогою доступних комп’ютерів (включаючи ноутбуки) і в межах розумного часу. При реалізації поставленої задачі у роботі були проаналізовані можливості декількох існуючих підходів до розпізнавання та ідентифікації візуальних об’єктів на основі використання згорткових нейронних мереж. Серед розглянутих мережних архітектур були R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO та деякі модифіка-ції на їх основі. На підставі проведеного аналізу особливостей їх роботи для виконання поставленої задачі було взято архітектуру YOLO, яка дозволяє проводити аналіз візуальних об’єктів в реальному режимі часу з високою швидкістю та надійністю. Реалізація програмного продукту була здійснена шляхом модифікації архітектури YOLOv3, реалізова-ної в TensorFlow 2.1. Розпізнавання об’єктів в цій архітектурі здійснюється з допомогою навченої мережі Darknet-53, параметри якої знаходяться у вільному доступі. Модифікація мережі полягала у заміні її вихідного класифікуючого шару. Навчання модифікованої таким чином мережі здійснено на основі технології Transfer learning з використанням датасету Agrilfruit Dataset. Було проведене дослідження особливостей процесу нав-чання мережі за умови використання різних видів градієнтного спуску (стохастичного та зі значенням батчу 4 і 8), в результаті якого був обраний оптимальний варіант ваг навченої мережі для подальшого її використання. Тестування роботи модифікованої та навченої мережі показало, що система на її основі з високою надій-ністю розрізняє об’єкти відповідних класів різного розміру на зображенні (навіть зі значним їх маскуванням) та підраховує їх кількість. Здатність програми розрізняти та підраховувати кількість окремих плодів на аналізова-ному зображенні може бути використана для візуальної оцінки врожайності плодових дерев.

Ключові слова: розпізнавання образів, ідентифікація об’єктів, глибокі нейронні мережі, згорткові нейронні мережі, YOLOv3, Darknet-53, Agrilfruit Dataset.

Посилання:

  1. Licheng Jiao et al. A Survey of Deep Learning-based Object Detection. // arXiv:1907.09408v2 [cs.CV] 10 Oct 2019.
  2. Z. Zou, Z. Shi, Y. Guo, and J. Ye. Object detection in 20 years: A survey. // arXiv:1905.05055v2 [cs.CV] 16 May 2019.
  3. P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: An evaluation of the state of the art // IEEE Transactions on Pattern Analysis and Machine Intelligence – 2012, vol. 34 – pp. 743–761.
  4. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? The KITTI vision benchmark suite // IEEE Conference on Computer Vision and Pattern Recognition, 2012 – pp. 3354–3361.
  5. O. Russakovsky et al. Imagenet large scale visual recognition challenge // International Journal of Computer Vision – 2015, vol. 115. – pp. 211–252.
  6. M. Everingham et al. The pascal visual object classes (voc) challenge // International Journal of Computer Vision – 2010, vol. 88. – pp. 303–338.
  7. Lin T.-Y. et al. Microsoft COCO: Common Objects in Context. In: Fleet D., Pajdla T., Schiele B., Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8693. Springer, Cham // arXiv:1405.0312v3 [cs.CV] 21 Feb 2015.
  8. Kuznetsova, H. Rom, N. Alldrin et al. The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale // arXiv:1811.00982, 2018.
  9. Погружение в свёрточные нейронные сети: передача обучения (transfer learning) habr.com. 2019. Available: https://habr.com/ru/post/467967/.
  10. R. Girshick, J. Donahue, T. Darrell, J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. Tech report (v5) // arXiv:1311.2524v5 [cs.CV] 22 Oct 2014.
  11. Girshick R. Fast R-CNN. // arXiv:1504.08083v2 [cs.CV] 27 Sep 2015.
  12. Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks // arXiv:1506.01497v3 [cs.CV] 6 Jan 2016.
  13. J. Redmon, S. Divvala, R. Girshick, A. Farhadi. You Only Look Once: Unified, Real-Time Object Detection // arXiv:1506.02640v1 [cs.CV] 8 Jun 2015.
  14. W. Liu A et al. SSD: Single shot multibox detector. In: Computer Vision – ECCV 2016 (B. Leibe, J. Matas, N. Sebe, and M. Welling, eds.), (Cham), Springer International Publishing, 2016. – pp. 21–37. // arXiv:1512.02325v5 [cs.CV] 29 Dec 2016.
  15. Tsung-Yi Lin et al. Feature Pyramid Networks for Object Detection // arXiv:1612.03144v2 [cs.CV] 19 Apr 2017.
  16. Y. Li and F. Ren. Light-Weight RetinaNet for Object Detection // arXiv:1905.10011v1 [cs.CV] 24 May 2019.
  17. Joseph Redmon, Ali Farhadi. YOLOv3: An Incremental Improvement. // arXiv:1804.02767v1 [cs.CV] 8 Apr 2018.
  18. Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao. YOLOv4: Optimal Speed and Accuracy of Object Detection // arXiv:2004.10934v1 [cs.CV] 23 Apr 2020.
  19. Delong Qi, Weijun Tan, Qi Yao, Jingfeng Liu. YOLO5Face: Why Reinventing a Face Detector. // arXiv:2105.12931v1 [cs.CV] 27 May 2021.
  20. J. Redmon. Darknet: Open source neural networks in C. Available: http://pjreddie.com/darknet/.
  21. Kathuria A. What's new in YOLOv3? Towar. Data Sci., 2018. Available: https://towardsdatascience.com/yolov3-object-detection-53fb7d3bfe6b.
  22. J. T. Springenberg, A. Dosovitskiy, T. Brox, M. Riedmiller. Striving for simplicity. The all convolutional net. // arXiv.1412.6806v3 [cs.LG] 13 Apr 2015.
  23. Shuyang Sun et al. FishNet. A Versatile Backbone for Image, Region, and Pixel Level Prediction // arXiv:1901.03495v1 [cs.CV] 11 Jan 2019.
  24. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition / arXiv:1512.03385v1 [cs.CV] 10 Dec 2015.
  25. T.-Y. Lin et al. Feature Pyramid Networks for Object Detection // arXiv:1612.03144v2 [cs.CV] 19 Apr 2017.
  26. Jan Hosang Rodrigo Benenson Bernt Schiele. Learning non-maximum suppression // arXiv:1705.02950v2 [cs.CV] 9 May 2017.
  27. TensorFlow-2.x-YOLOv3 and YOLOv4 tutorials: 2020. Available: https://github.com/pythonlessons/TensorFlow-2.x-YOLOv3.
  28. Pawara P. Agrilfruit Dataset – for object detection and counting task Pornntiwa Pawara // ai.rug.nl. – 2020. Available: https://www.ai.rug.nl/~p.pawara/dataset.php.
  29. Junyuan Xie Tong et al. Bag of Tricks for Image Classification with Convolutional Neural Networks. // arXiv:1812.01187v1 [cs.CV] 4 Dec 2018.

Переглянути повний текст статті (PDF)