Հայաստանի ատենախոսությունների բաց մատչելիության պահոց = Open Access Repository of the Armenian Electronic Theses and Dissertations (Armenian ETD-OA) = Репозиторий диссертаций Армении открытого доступа

Թվային պատկերների իմաստաբանական վերլուծության մեթոդների մշակում և իրականացում

Պողոսյան, Աղասի Ստեփանի (2019) Թվային պատկերների իմաստաբանական վերլուծության մեթոդների մշակում և իրականացում. PhD thesis, ՀՀ ԳԱԱ ինֆորմատիկայի և ավտոմատացման պրոբլեմների ինստիտուտ.

[img]
Preview
PDF (Abstract)
Available under License Creative Commons Attribution.

Download (2560Kb) | Preview

    Abstract

    Թվային պատկերների իմաստաբանական վերլուծությունը տեղեկատվական ճարտարագիտության (Information Engineering) արդի խնդիրներից է: Դրա վերջնական լուծումը ենթադրում է, որ կստեղծվի համակարգ, որը կկարողանա նկարագրել պատկերներն այնպես, ինչպես կարողանում է մարդը: Լուծումն առնչվում է այնպիսի ոլորտներին, ինչպիսիք են մեքենայական ուսուցումը (Machine learning), վիճակագրությունը (Statistics), բնական լեզուների մշակումը (Natural language processing), համակարգչային տեսողությունը (Computer vision), թվային ազդանշանների և պատկերների մշակումը (Signal and Image Processing), ինչպես նաև' ինֆորմացիայի տեսությունը (Information theory) և նեյրոկենսաբանությունը (Neurobiology): Թվային պատկերների իմաստաբանական վերլուծություն կատարելը ենթադրում է, որ համակարգի մուտքին տրվող պատկերի համար պետք է ձևավորվեն այնպիսի արդյունքներ, որոնք արտահայտված կլինեն բնական լեզուների տարրերով բառերով և նախադասություններով: Ընդ որում պատկերը նկարագրող առանձին վերցված ֆիզիկական մեծությունները, օրինակ պիքսելի գույնը կամ պատկերի պայծառությունը, չեն կարող համարվել դրա իմաստաբանական գնահատական, սակայն դրանք կարող են հանդիսանալ բառակապակցության կամ նախադասության մաս' օրինակ «կարմիր մեքենա», «տղամարդը նստած է պայծառ սենյակում»: Խնդրի հիմնական բարդությունը կայանում է նրանում, որ պատկերների իմաստաբանական վերլուծության մաս կազմող օբյեկտների հայտնաբերումը և տեղորոշումը չի լուծվում միայն պատկերների մշակման և նմուշների ճանաչման մեթոդներով (Pattern recognition), քանի որ պատկերում գտնվող «օբյեկտները»' կախված միմյանց նկատմամբ դասավորվածությունից և մասշտաբից, կարող են դիտարկվել որպես տարբեր առարկաներ: Օրինակ առանձին վերցված կենդանու մազերը կարող են շատ նման լինել սարդոստայնների: Այդ պատճառով պատկերների սեգմենտացիայի ալգորիթմները դառնում են անզոր այս խնդրի լուծման համար: Հենց նույն կերպ էլ հնարավոր չի լինում հայտնաբերել օբյեկտները, քանի որ անհայտ է, թե պատկերի որ հատվածները պետք է դրա համար համեմատվեն: Ստացվում է, որ հնարավոր չէ կատարել նմուշների (pattern) համեմատում, քանի որ հայտնի չեն պատկերում օբյեկտների եզրագծերը, իսկ դրանց հայտնաբերման համար էլ անհրաժեշտ է նախապես իմանալ օբյեկտների տեսակները: Այսպիսով, պատկերում օբյեկտների հայտնաբերում և տեղորոշում կատարող համակարգը պետք է օժտված լինի իրարից ուղղակիորեն կախվածություն չունեցող և' ճանաչման, և' տեղորոշման հատկություններով: Նմանատիպ խնդիրներ ի հայտ են գալիս նաև պատկերը մեկ ընդհանրական վերնագրով (caption) նկարագրելիս, որտեղ առաջանում են բնական լեզվով նախադասության գեներացման հետ կապված խնդիրներ: Վերջին տարիներին ստեղծվել են պատկերների իմաստաբանական վերլուծություն կատարող տարբեր համակարգեր: Դրանցից են պատկերները դասակարգող խորը փաթույթային նեյրոնային ցանցերի վրա հիմնված համակարգերը: Դրանց կիրառմամբ մշակված են պատկերներում օբյեկտներ հայտնաբերող, ճանաչող և տեղորոշող, ինչպես նաև պատկերների վերնագրերը բնական լեզվով գեներացնող ցանցեր: Այդ ցանցերի վրա հիմնված համակարգերը կիրառվում են ռոբոտաշինության մեջ, օրինակ ինքնակառավարվող ավտոմեքենաներ և անօդաչու թռչող սարքեր նախագծելիս, բացի դրանից, ճիշտ ներդնելու դեպքում, կունենան պոտենցիալ այլ կիրառություն, օրինակ հիմնովին կարող են հեշտացնել տեսողական խնդիրներ ունեցող մարդկանց առօրյան: Պատկերների իմաստաբանական վերլուծությունների կարևոր կիրառություններից են նաև որոնող (search) և խորհրդատու (recommendation) համակարգերը, որոնք բանալի բառերով կատարում են պատկերների որոնում: Որոնումը լավ կազմակերպելու նպատակով անհրաժեշտություն է առաջանում հայտնաբերել պատկերում գտնվող օբյեկտները և նկարագրել դրանց հարաբերություններն ու հատկությունները: Հաճախ պատկերների իմաստաբանական վերլուծության համար որոշ լուծումներում համատեղ կիրառվում են տարբեր իմաստաբանական վերլուծություն կատարող համակարգեր: Բացի դրանցից որոշ լուծումներ օգտագործում են դինամիկ օպտիմիզացիայի մեթոդներ, որոնք շատ դանդաղագործ են: Նշենք, որ ժամանակակից խորհրդատու և փնտրող համակարգերում մեծ կարևորություն ունի արագագործությունը, որի պատճառով վերը նշված լուծումներն անարդյունավետ են: Այսպիսով իրական ժամանակում աշխատող համակարգերում պատկերների իմաստաբանական վերլուծություն կատարող համակարգերը պետք է հնարավորինս քիչ հաշվարկներ կատարելով կարողանան գեներացնել մուտքային պատկերների մանրամասն նկարագրություն: Ատենախոսության նպատակն է մշակել թվային պատկերների իմաստաբանական վերլուծություն կատարող արագագործ մեթոդ, որը կկարողանա մուտքային պատկերը վերնագրել բնական լեզվի քերականությանը համապատասխանող նախադասությամբ, ճանաչել և տեղորոշել պատկերներում գտնվող օբյեկտները, ինչպես նաև հայտնաբերված օբյեկտների համար հաշվել գերիշխող գույները: Մշակված մեթոդի համար անհրաժեշտ է ստեղծել ծրագրային համակարգ, որը հաշվարկների արագացման համար կօգտագործի համակարգչի թե' կենտրոնական և թե' գրաֆիկական պրոցեսորների բոլոր միջուկները: Թվային պատկերների իմաստաբանական վերլուծության մեթոդների մշակման համար օգտագործվել են պատկերները դասակարգող, օբյեկտներ հայտնաբերող և տեղորոշող խորը փաթույթային ու պատկերների վերնագրերը բնական լեզվով արտահայտող ռեկուրենտ նեյրոնային ցանցեր: Մոդելների ուսուցման, գնահատման և թեստավորման համար ստեղծված համակարգերում օգտագործվել են զուգահեռ հաշվարկների մեթոդներ: Մշակվել է պատկերների վերնագրեր գեներացնող ռեկուրենտ նեյրոնային ցանց, որը հիմնված է օբյեկտներ հայտնաբերող և տեղորոշող խորը փաթույթային նեյրոնային ցանցից դուրս բերված բարձր մակարդակի հատկությունների վրա: Արդյունքում ստեղծվել է պատկերների վերնագրեր գեներացնող, պատկերներում օբյեկտներ հայտնաբերող և տեղորոշող մեկ միասնական, արագագործ ցանց: Ցանցերի ուսուցման, գնահատման և թեստավորման համար ստեղծվել են ծրագրային համակարգեր, որոնք հաշվարկները զուգահեռ կատարում են կենտրոնական և գրաֆիկական պրոցեսորների բոլոր միջուկների վրա: Մշակվել է իրական ժամանակում աշխատող ծրագրային համակարգ, որը կատարում է պատկերների վերնագրերի գեներացում, օբյեկտների հայտնաբերում, ճանաչում և տեղորոշում, ինչպես նաև հաշվում է օբյեկտների գերիշխող գույները: Մշակվել է իմաստաբանորեն նման պատկերների որոնման ալգորիթմ, որը GoogLeNet ցանցից դուրս բերված բարձր մակարդակի հատկությունների կիրառմամբ կատարում է օբյեկտների որոնում 89% ճշգրտությամբ: Մշակվել է մեծ կարճաժամկետ հիշողության (Long Short-Term Memory) մոդիֆիկացված տարբերակ, որը պատկերների վերնագրերի գեներացման խնդրում ցուցաբերել է ավելի բարձր ճշգրտություն: Ուսումնասիրության համար ստեղծվել է ծրագրային համակարգ, որը թույլ է տալիս մոտ 10 անգամ կրճատել ուսուցման մեկ փորձի վրա ծախսվող ժամանակը և նվազեցնել գրաֆիկական քարտի հիշողության օգտագործումը: Աշխատանքի կիրառական նորությունները։ Մշակված պատկերների իմաստաբանական վերլուծություն կատարող համակարգը կարելի է ներդնել որոնող համակարգերում' նկարագրությամբ կամ բանալի բառերով պատկերների որոնման համար: Տեսողության խնդիրներ ունեցող մարդկանց կարող է օգնել ինչպես վիրտուալ, այնպես էլ իրական աշխարհում' տալով այնտեղ գտնվող առարկաների և իրադարձությունների մասին ինֆորմացիա: Ներդնելով մշակված ծրագրային միջոցները կարելի է ավտոմատացնել որոշ հսկողության համակարգեր: Լայն կիրառություն կարող է ունենալ թե' արտադրական, թե' այլ նշանակության համակարգերում: Մշակված իմաստաբանորեն նման պատկերների որոնման ալգորիթմի կիրառմամբ կարելի է խմբավորել (clustering) չպիտակավորված պատկերները, ինչպես նաև խորհրդատու (recommendation) և որոնող (search) համակարգերում կազմակերպել նման պատկերների որոնում: Ատենախոսության շրջանակներում ստացված արդյունքները և մշակված միջոցները ներդրվել են «ՊիկսԱրտ ՍՊԸ» ընկերությունում' պատկերների իմաստաբանական որոնում և չպիտակավորված պատկերների դասակարգում կազմակերպելու նպատակով: Մշակված մեթոդները կիրառվել են ընկերության սերվերային համակարգերում պատկերի նմանակների հայտնաբերման, ինչպես նաև չպիտակավորված պատկերների պիտակավորման, դասակարգման և խորհրդատու համակարգի կատարելագործման համար: Աշխատանքի արդյունքները զեկուցվել են. «Համակարգչային գիտություններ և տեղեկատվական տեխնոլոգիաներ» միջազգային գիտաժողովում (CSIT 2017, ք. Երևան, Հայաստան), «International Conference Dedicated to 90th Anniversary of SERGEY MERGELYAN» գիտաժողովում (2018թ., ք. Երևան, Հայաստան), «Գիտության և տեխնոլոգիաների մերձեցում» գիտաժողովում (2018թ., ք. Երևան, Հայաստան), ՀՀ ԳԱԱ ԻԱՊԻ կոդավորման և ազդանշանների մշակման գիտամեթոդական սեմինարում (2018թ.), ՀՀ ԳԱԱ ԻԱՊԻ ընդհանուր նիստ (2019թ.)։ Հրապարակումներ։ Ատենախոսության հիմնական արդյունքները հրատարակված են 7 գիտական աշխատություններում, որոնք թվարկված են սեղմագրի վերջում։ Ատենախոսությունը բաղկացած է առաջաբանից, չորս գլխից, եզրակացությունից, 79 անուն օգտագործված գրականության ցանկից, թարգմանված տերմիններից և 8 էջ հավելվածից։ Աշխատանքի ընդհանուր ծավալն է 122 էջ։ Առաջաբանում հիմնավորված է թեմայի արդիականությունը, ձևակերպված են աշխատանքի նպատակները, Ււետազոտության մեթոդները, գիտական և կիրառական նորույթները, որոնք ներկայացվում են պաշտպանության: Առաջին գլխում ամփոփված են խորը փաթույթային նեյրոնային ցանցերով (deep convolutional neural networks) պատկերների իմաստաբանական վերլուծության մեթոդները և դրանց տարրերը։ Գլխում ամփոփված են ցանցերը կազմող ուսուցանվող (trainable) և չուսուցանվող շերտերը, մասնավորապես՝ փաթույթային (convolutional), միավորող (pooling), խրձով նորմալիզացնող (batch normalization) և լրիվ կապակցված (fully connected)։ Յուրաքանչյուր շերտի համար տրված է շերտի ելքային արժեքի հաշվարկման ֆունկցիան, ինչպես նաև նկարագրված է շերտի դերն ու կիրառությունները։ Ամփոփված են նաև պատկերների իմաստաբանական վերլուծության խնդիրներում ցանցերի վերահսկվող ուսուցման եղանակը (supervised learning), երբ ցանցի ուսուցման (training) և վավերացման (validation) համար տրված են համապատասխան տվյալների հավաքածուներ (dataset), որոնք բաղկացած են պիատկավորված (labeled) օրինակներից։ Անդրադարձ է արված բուն ուսուցման ժամանակ կիրառվող գրադիենտի անկման (gradient descent) և ետ տարածման (back propogation, տեղակայված է Հավելված 1-ում) մեթոդներին։ Երկրորդ գլխում ներկայացված են պատկերների վերնագրերի (caption) գեներացման խնդիրներում կիրառվող խորը փաթույթային նեյրոնային ցանցերի հատկությունները, ինչպես նաև ներկայացված է պատկերների վերնագրերի գեներատորի ընդհնուր կառուցվածքը, խնդրի մաթեմատիկական դրվածքը և ուսուցման ալգորիթմը։ Ցանցերի հատկությունների հետազոտության շրջանակներում մշակվել է իմաստբանորեն նման պատկերների որոնման մեթոդ։ The term “semantic image analysis” means the derivation of a meaningful, figurative description of the content of an image, similar to what a person could give. The implementation of technology implies the creation of a system which will produce results in the form of elements of a natural language - words and sentences for incoming images. At the same time, the individual pixel values of the image, for example, the color of a pixel or the brightness of an image, cannot be considered as its semantic description, but can be a part of a phrase or a sentence, for example, “red car” or “a man is sitting in a bright room”. Today, this technique is used in development process of search and recommendation systems, self-driving vehicles and unmanned aerial vehicles. Also, it can be used for developing tools which could help people with vision problems. The solution of the problem comes into contact with such areas as machine learning, statistics, natural language processing, computer vision, signal and image processing, as well as information theory and neurobiology. The complexity of the problem lies in the fact that image processing and pattern recognition methods alone are not enough to perform semantic image analysis, in particular object detection and localization since the objects in the image could be considered as different objects depending on their location. For example, hair of an animal may be considered as a web. Various systems of semantic image analysis have been created during recent years. The state-of-the-art approaches are based on deep convolutional neural networks. There are networks that can both detect and localize the objects in the image, as well as generate captions in the form of a natural language. The aim of this work is to develop a real-time method, which will caption the image via sentence expressed in a natural language such as English, also will detect and localize objects and compute their color attributes. Furthermore, the goal of the work is to develop a software system, to accelerate the calculations by utilizing all cores of the CPU and the GPU. A caption generator and object detector have been developed as a single model by mixing a recurrent neural network and object detector. The result is a single high-speed network that can generate image captions, detect and localize objects. Software systems have been developed for training, evaluating and testing the recurrent neural network. A real-time software has been developed that generates image caption, detects objects and localizes them, also calculates the dominant color. The software performs computations in parallel by utilizing all the cores of the CPU and the GPU. [1-3] A method was developed for finding similar images, which has 89% accuracy when GoogLeNet's high-level feature's metric is a correlation. [4] A modified version of the Long Short-term Memory has been developed, which shows better results in image caption generation task. A software system was developed that allows reducing the training duration of the recurrent network by more than 10 times and also the usage of a GPU memory. [5-7] Термин «семантический анализ изображений» означает вывод осмысленного, образного описания содержания изображения - такого, какое бы смог дать человек. Реализация техники подразумевает создание системы, которая для входящих изображения будет выдавать результаты в виде элементов естественного языка-слов и предложений. При этом отдельно взятые физические величины изображения, например, цвет пикселя или яркость изображения не могут считаться его семантической оценкой, но могут составлять части словосочетания или предложения, например, «красная машина», «мужчина сидит в яркой комнате». На сегодняшний день эта техника используется в таких областях, как разработка поисковых и рекомендательных систем, автопилотируемых автомобилей и беспилотных летательных аппаратов. Также, при правильном применении, с ее помощью можно разработать средства, помогающие людям с проблемным зрением. Решение проблемы соприкасается с такими областями, как машинное обучение, статистика, обработка естественного языка, компьютерное зрение, обработка сигналов и изображений, а также теория информации и нейробиология. Сложность проблемы состоит в том, что выявление и позиционирование объектов, которое составляет часть смыслового анализа изображений, не решается только методами обработки изображений и распознавания образов, поскольку объекты в изображении, в зависимости от расположения относительно друг друга, могут рассматриваться как разные предметы. Например, отдельно взятые волоски животного могут быть похожи на паутину. В последние годы были созданы различные системы смыслового анализа изображений. Из числа которых системы, основанные на сверточных нейронных сетях. На их основе разработаны сети, способные как выявлять, распознавать и обнаруживать объекты в изображениях, так и генерировать заглавия изображений в виде естественного языка. Целью работы является разработка быстродействующего метода, с помощью которого возможно озаглавить изображение предложением, соответствующим грамматике естественного языка, распознать и обнаружить объекты в изображении, а также рассчитать преобладающий цвет для них. Также целью работы является создание программного обеспечения, основанного на вышеописанном методе, которое, в целях ускорения расчетов, будет использовать все ядра как центрального, так и графического процессоров. Была разработана генерирующая заглавия изображений рекуррентная нейронная сеть, основанная на свойствах высокого уровня, выведенных из глубоких сверточных нейронных сетей, распознающих и обнаруживающих объекты. В результате получилась единая быстродействующая сеть, способная генерировать заглавия изображений, распознавать и обнаруживать объекты в них. Были разработаны системы для оценки и тестирования обучения нейронных сетей, которые производят расчеты параллельно на всех ядрах центрального и графического процессоров. Было разработано программное обеспечение с высокой производительностью, которое выполняет генерацию заглавий изображений, выявляет, распознает и обнаруживает объекты, а также рассчитывает преобладающий в них цвет. [1-3] Был разработан алгоритм для нахождения изображений похожих по смыслу, который используя свойства высокого уровня, выведенные из сети GoogLeNet, реализует поиск объекта с точностью 89%. [4] Был разработан модифицированный вариант долгой краткосрочной памяти, который показывает лучшие результаты в генерации заглавий изображений. Была разработана система, позволяющая сокращать время необходимое для обучения примерно в 10 раз, используя меньше графической памяти.

    Item Type: Thesis (PhD)
    Additional Information: Разработка и реализация методов семантического анализа цифрового изображения. Development and implementation of methods of digital image semantic analysis.
    Uncontrolled Keywords: Погосян Агаси Степанович, Pogosyan Aghasi Stepan
    Subjects: Informatics and Computer Systems
    Divisions: UNSPECIFIED
    Depositing User: NLA Circ. Dpt.
    Date Deposited: 26 Sep 2019 12:22
    Last Modified: 28 Feb 2020 09:16
    URI: http://etd.asj-oa.am/id/eprint/10668

    Actions (login required)

    View Item