Архітектурно-математичні основи удосконалення нейронних мереж з класифікації зображень

Шукати за:

Роком видання

Автором

Назвою статті

https://doi.org/10.15407/jai2022.01.245

Архітектурно-математичні основи удосконалення нейронних мереж з класифікації зображень

Слюсар В.І.¹

¹ Центральний науково-дослідний інститут озброєння та військової техніки Збройних Сил України

swadim@ukr.net

https://orcid.org/0000-0002-2912-3149

Повний текст (PDF)

УДК: 519.8
Мова публікації: Українська
Stuc. intelekt. 2022; 27; (1):245-258

Анотація: В статті запропоновані шляхи вирішення завдання структурного синтезу нейромережних архітектур, спираючись на нетрадиційні підходи щодо їх аналітичної формалізації та застосування нових операцій обробки даних. На прикладі датасету CIFAR10 доведено можливість підвищення точності вирішення завдань класифікації зображень в рамках альтернативної архітектури з розширювальною вхідною та звужуючою структурами навчених нейронних мереж. Результати застосування укрупнення вхідного зображення, що було здійснене за допомогою прошарків Resizing та Conv2DTranspose на вході попередньо навчених нейромереж, свідчать про ефективність вирішення у такий спосіб завдань класифікації на прикладі датасету CIFAR10. Досягнута на основі нейромережі Xception середня по 10-ом класам точність класифікації зображень CIFAR10 становить 97,3%. Супутній ефект попереднього масштабування зображень полягає у вирівнюванні точності класифікації різних класів, що дозволяє розглядати таку зміну розмірів як варіант аргументації даних у датасеті. Для подальшого розвитку цього підходу запроваджено тензорно-матричні методи формалізації опису нейронних мереж на основі проникаючого торцевого добутку матриць та його блокових модифікацій. На цій базі запропоновано низку нових операцій згортки та макспулінгу, а також поєднання на вході звужувального сегменту не тільки симетрично збільшеного зображення, а й його варіантів, отриманих на основі узагальненого проникаючого добутку. Мова йде про залучення зображень, розширених по рядках пікселів (по горизонталі) та по стовпцях (по вертикалі), а також поєднання кількох різних варіантів симетричних розширень зображень за принципом побудови пірамідального сегменту нейромережі PSPNet.

Ключові слова: нейронна мережа, тензорно-матрична теорія, проникаючий торцевий добуток матриць.

Посилання:

Slyusar, V. I. (1998) End matrixs products in radar applications. Radioelectronics and Communications Systems, 41(3).
Слюсар В.И. (1997) Новые операции умножения матриц в радиолокационных приложениях. Прямі та обернені задачі теорії електромагнітних та акустичних хвиль (DIPED-97). - Львов, 73-74. doi: 10.1109/DIPED.1997.710918.
Slyusar, V. (1999). A Family of Face Products of Matrices and its Properties. Cybernetics and systems analysis c/c of Kibernetika i sistemnyi analiz. Consultants bureau (USA), 3(35), 379–384. doi: 10.1007/BF02733426.
Slyusar, V. I. (2003) Generalized face-products of matrices in models of digital antenna arrays with nonidentical channels. Radioelectronics and Communications Systems, 46(10), 9 - 17.
Слюсар В.И. (1999) Информационная матрица Фишера для моделей систем, базирующихся на торцевых произведениях матриц. Кибернетика и системный анализ, 35(4), 636 - 643. doi: 10.1007/BF02835859.
Thomas D. Ahle, Jakob Bæk Tejs Knudsen (2019) Almost Optimal Tensor Sketch. Mathematics, Computer Science, ArXiv.
Martín Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Gregory S. Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian J. Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Józefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dan Mané, Rajat Monga, Sherry Moore, Derek Gordon Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul A. Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda B. Viégas, Oriol Vinyals, Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng (2016) Tensorflow: Large-scale machine learning on heterogeneous distributed systems. CoRR, abs/1603.04467, http://arxiv.org/abs/1603.04467.
Tensorflow, how to multiply a 2D tensor (matrix) by corresponding elements in a 1D vector (2017), https://stackoverflow.com/questions/47817135/tensorflow-how-to-multiply-a-2d-tensor-matrix-by-corresponding-elements-in-a.
Ha D., Dai A.M., Le Q.V. HyperNetworks (2017) The International Conference on Learning Representations (ICLR), Toulon, https://arxiv.org/abs/1609.09106.
LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. (1998) Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278- 2324.
Слюсар В.І. Тензорно-матричная версия LeNet5 (2021) IV Міжнародна науково-практична конференція «Інтеграція інформаційних систем і інтелектуальних технологій в умовах трансформації інформаційного суспільства», що присвячена 50-ій річниці кафедри інформаційних систем та технологій, 21-22 жовтня 2021 р., Полтава: Полтавський державний аграрний університет, 114 - 119. doi: 10.32782/978-966-289-562-9.
Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017). ImageNet classification with deep convolutional neural networks, Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386.
Vadym Slyusar, Mykhailo Protsenko, Anton Chernukha, Pavlo Kovalov, Pavlo Borodych, Serhii Shevchenko, Oleksandr Chernikov, Serhii Vazhynskyi, Oleg Bogatov, Kirill Khrustalev. Improvement of the object recognition model on aerophotos using deep conventional neural network.// Eastern-European Journal of Enterprise Technologies. - 2021, Vol. 5, No. 2 (113). Pp.6–21. DOI: 10.15587/1729-4061.2021.243094.
H. Qassim, A. Verma and D. Feinzimer (2018), Compressed residual-VGG16 CNN model for big data places image recognition, Computing and Communication Workshop and Conference (CCWC) 2018 IEEE 8th Annual, 169-175.
G. Huang, Z. Liu, L. Van Der Maaten and K. Weinberger (2017), Densely Connected Convolutional Networks, in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 2261-2269. doi: 10.1109/CVPR.2017.243
Howard, A.G., Zhu, M., Chen, B., et al. (2017) MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications.
Sandler, M., Howard, A., Zhu, M., et al. (2018) Mobilenetv2: Inverted Residuals and Linear Bottlenecks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 4510-4520. doi.org/10.1109/CVPR.2018.00474.
Howard, A., Sandler, M., Chu, G., et al. (2019) Searching for Mobilenetv3. Proceedings of the IEEE International Conference on Computer Vision, Seoul, 27 October-2 November 2019, 1314-1324. doi.org/10.1109/ICCV.2019.00140.
Zoph, B., Vasudevan, V., Shlens, J., & Le, Q. V. (2018). Learning Transferable Architectures for Scalable Image Recognition, https://arxiv.org/abs/1707.07012.
Olaf Ronneberger, Philipp Fischer, and Thomas Brox (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation, https://arxiv.org/pdf/1505.04597.pdf
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio (2014) Generative Adversarial Nets, In Advances in Neural Information Processing Systems (NIPS), 2672–2680.
Слюсар В.И., Слюсарь И.И. (2021) Львы зоопарка нейростей. Нейромережні технології та їх застосування НМТіЗ-2021: збірник наукових праць XX Міжнародної наукової конференції «Нейромережні технології та їх застосування НМТіЗ-2021». - Краматорськ: Донбаська державна машинобудівна академія.
A. Krizhevsky (2009). Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto.
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. (2009) ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09.
Md Jahidul Islam, Peigen Luoy and Junaed Sattar (2020), Simultaneous Enhancement and Super-Resolution of Underwater Imagery for Improved Visual Perception, Robotics: Science and Systems 2020 Corvalis, Oregon, USA, July 12-16, 2020
Fjodor Van Veen. The neural network zoo. - https://www.asimovinstitute.org/neural-networkzoo/.
Слюсар В.И. Мультимодальные квазифрактальные нейросети (2021) Нейромережні технології та їх застосування НМТіЗ-2021: збірник наукових праць XX Міжнародної наукової конференції «Нейромережні технології та їх застосування НМТіЗ-2021», Краматорськ: Донбаська державна машинобудівна академія, 134 -137.
Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia (2016) Pyramid Scene Parsing Network, https://arxiv.org/abs/1612.01105.

Переглянути повний текст статті (PDF)

Штучний інтелект

Науковий журнал

Шукати за:

Архітектурно-математичні основи удосконалення нейронних мереж з класифікації зображень