Հայաստանի ատենախոսությունների բաց մատչելիության պահոց = Open Access Repository of the Armenian Electronic Theses and Dissertations (Armenian ETD-OA) = Репозиторий диссертаций Армении открытого доступа

Разработка диалоговой и обучаемой системы для автоматизированного взаимного представления структур естественного языка и языка UNL

Аветисян, Арам Ашотович (2011) Разработка диалоговой и обучаемой системы для автоматизированного взаимного представления структур естественного языка и языка UNL. PhD thesis, Институт проблем информатики и автоматизации НАН РА.

[img]
Preview
PDF (Abstract)
Available under License Creative Commons Attribution.

Download (534Kb) | Preview

    Abstract

    В последние годы существенно возросли объемы информации в виде разноязычных текстов в электронном виде. Для возможности быстрого анализа и передачи этой информации необходимо создание систем автоматизированного перевода с возможно меньшим потреблением машинных ресурсов и времени. Универсальный сетевой язык (Universal Networking Language, сокр. UNL)1 предоставляет возможность перевода с одного естественного языка на другой и может быть использован в качестве средства для хранения текстовых ресурсов в универсальном, семантическом виде, позволяя сравнительно легко анализировать информацию. Для реализации этих возможностей необходима разработка эффективного программного обеспечения, которое позволит преобразовывать тексты естественных языков в UNL. Сложность и специфичность естественных языков делает практически невозможным создание совершенных словарных и грамматических ресурсов, необходимых для качественного перевода. По этой причине, в течение всей истории машинного перевода, в большинстве случаев прибегали к методу смешанного перевода (с пред- и постредактированием). Решением этой проблемы может стать способность программы обучаться, на основе решений, принятых человеком.Целью диссертационной работы является разработка и реализация алгоритма, способного совершать NL→UNL и UNL→NL преобразования, как в полностью автоматическом режиме, так и в интерактивном. Разработанная программа должна обладать способностью анализа человеческого вмешательства в процессе интерактивного преобразования (обучаться) и дальнейшего использования накопленных знаний. Աշխատանքում հետազոտվում են գոյություն ունեցող UNL ռեսուրսները և նրանց հետ աշխատանքի համար մինչ այժմ մշակված ծրագրային միջոցները: Նաև նկարագրվում է նոր և բարելավված ծրագրային միջոցների մշակումը, որոնք օգտագործում են համեմատաբար նոր և արդյունավետ տեխնոլոգիաներ և ալգորիթմներ: Կիրառված բարելավումները ուղղված են բարձրացնելու մշակվող ծրագրային փաթեթի աշխատանքի որակը և արագությունը, ինչպես նաև դարձնել այն հասանելի ինտերնետում: Որակական բարելավման նպատակով մշակված է UNL-ի և բնական լեզուների փոխադարձ ներկայացման համար երկխոսական (ինտերակտիվ) համակարգ, որը թույլ է տալիս օգտագործողին միջամտել նախադասության սերման գործընթացին և հնարավորություն է տալիս համակարգին անալիզի ենթարկել այդ միջամտության արդյունքները (սովորել)՝ ստացած գիտելիքները հետագայում կիրառելու նպատակով: UNL-ը ներկայացնում է ինֆորմացիան սեմանտիկ ցանցերի տեսքով: Յուրաքանչյուր նախադասություն ներկայացվում է կապակցված և ուղղորդված գրաֆի տեսքոով: Ի տարբերություն բնական լեզվի, UNL-ով նկարագրված արտահայտության իմաստը միանշանակ է: UNL սեմանտիկ գրաֆերում հանգույցներին համապատասխանեցված են հասկացություններ (concept), որոնք կոչվում են «ունիվերսալ բառեր» (Universal Word, կրճատ՝ UW), իսկ կողերին՝ իմաստային (սեմանտիկ) կապեր, որոնք կոչվում են «հարաբերություններ» (relation): Ատենախոսությունը բաղկացած է ներածությունից, չորս գլուխներից, արդյունքների ամփոփումից և օգտագործվող գրականության ցանկից: Ներածությունում հիմնավորված է հետազոտվող թեմայի արդիականությունը, նշված են նպատակները, հիմնական խնդիրները և նրանց լուծման մեթոդները : Գլուխ 1.-ում դիտարկված են NL↔UNL փոոխադարձ ներկայացման համար կիրառելի ալգորիթմական և տեխնիկական լուծումներ և հետազոտությունների արդյունքներ: Նշված են գոյություն ունեցուղ խնդիրները և բարեփոխումների հնարավոր միջոցներ: Գլուխ 2.-ում մանրամասնորեն քննարկվում են NL, UNL և NL-UNL բառարանների կառուցվածքը և նրանց չափսերի աստիճանաբար աճի պատճառով առաջ եկող խնդիրները: Ներկայացվում է նշված խնիրների լուծման համար նպատակահարմար որոշակի ալգորիթմական և ծրագրային միջոցների համեմատական անալիզ: Որպես լուծում, առաջարկվում է Ահո-Կորասիկի ավտոմատի հիման վրա կառուցվող բառարանային փնտրման ալգորիթմի մշակումը և կիրառումը, ինչպես նաև, այդ ալգորիթմի բարելավման համար որոշակի լուծումներ: This thesis studies the existing UNL (Universal Networking Language) resources and the available tools developed to work with them. We also describe the approaches in the development of some enhanced solutions, with the usage of newer technologies and more efficient algorithms. The solutions used, are aimed to enhance the quality of the developed program tools, increase the processing speed and to insure their availability on the web. A UNL and natural language (NL) two-directional interactive representation system has been developed to enhance the processing result quality, by providing the user with an opportunity to intervene into NL↔UNL analysis and generation processes and make necessary corrections. Learning ability is developed by allowing the system to analyze the user corrections during the interactive processes and to use the gained knowledge in the future. UNL represents the natural language texts in a form of sematic networks. Each UNL expression can be presented as a connected directed graph. Unlike natural languages, UNL expressions are unambiguous.In UNL semantic graphs a concept is presented as a node. Those concepts are also called "Universal Words" or UWs. While the nodes represent concepts, the arcs represent the semantic relations between the concepts (UWs). The thesis consists of the following: an introduction, four chapters, results summary and a list of referred literature. The aim and main problems studied in the thesis are briefly presented in the introduction, along with the current status of UNL project developments. Chapter 1 studies some technologies and algorithmic solutions of machine translation theory, which may become a basis for the enhancement of NL↔UNL representation. This chapter highlights the main obstacles in the usage of currently available software for further UNL development.

    Item Type: Thesis (PhD)
    Additional Information: Բնական լեզվի և UNL լեզվի կառուցվածքների փոխադարձ ավտոմատացված ներկայացման համար երկխոսական և ուսուցվող համակարգի մշակումը: The development of interactive and learning system for UNL and natural language two-directional automatic.
    Uncontrolled Keywords: Ավետիսյան Արամ Աշոտի, Avetisyan Aram
    Subjects: Informatics and Computer Systems
    Divisions: UNSPECIFIED
    Depositing User: NLA Circ. Dpt.
    Date Deposited: 25 Dec 2018 14:29
    Last Modified: 05 Feb 2019 15:08
    URI: http://etd.asj-oa.am/id/eprint/8452

    Actions (login required)

    View Item