Հայաստանի ատենախոսությունների բաց մատչելիության պահոց = Open Access Repository of the Armenian Electronic Theses and Dissertations (Armenian ETD-OA) = Репозиторий диссертаций Армении открытого доступа

Բնական լեզվի և UNL լեզվի կառուցվածքների փոխադարձ ավտոմատացված ներկայացման համար երկխոսական և ուսուցվող համակարգի մշակումը

Ավետիսյան, Արամ Աշոտի (2011) Բնական լեզվի և UNL լեզվի կառուցվածքների փոխադարձ ավտոմատացված ներկայացման համար երկխոսական և ուսուցվող համակարգի մշակումը. PhD thesis, ՀՀ ԳԱԱ Ինֆորմատիկայի և ավտոմատացման պրոբլեմների ինստիտուտ.

[img] PDF (Abstract)
Available under License Creative Commons Attribution.

Download (534Kb)

  Abstract

  В последние годы существенно возросли объемы информации в виде разноязычных текстов в электронном виде. Для возможности быстрого анализа и передачи этой информации необходимо создание систем автоматизированного перевода с возможно меньшим потреблением машинных ресурсов и времени. Универсальный сетевой язык (Universal Networking Language, сокр. UNL)1 предоставляет возможность перевода с одного естественного языка на другой и может быть использован в качестве средства для хранения текстовых ресурсов в универсальном, семантическом виде, позволяя сравнительно легко анализировать информацию. Для реализации этих возможностей необходима разработка эффективного программного обеспечения, которое позволит преобразовывать тексты естественных языков в UNL. Сложность и специфичность естественных языков делает практически невозможным создание совершенных словарных и грамматических ресурсов, необходимых для качественного перевода. По этой причине, в течение всей истории машинного перевода, в большинстве случаев прибегали к методу смешанного перевода (с пред- и постредактированием). Решением этой проблемы может стать способность программы обучаться, на основе решений, принятых человеком. Цель диссертационной работы. Целью диссертационной работы является разработка и реализация алгоритма, способного совершать NL→UNL и UNL→NL преобразования, как в полностью автоматическом режиме, так и в интерактивном. Разработанная программа должна обладать способностью анализа человеческого вмешательства в процессе интерактивного преобразования (обучаться) и дальнейшего использования накопленных знаний. Научная новизна. Ранее известные преобразователи EnConverter (NL→UNL) и DeConverter (UNL→NL) предоставляли возможность редактирования лишь двух узлов предложения на каждом шаге процесса преобразования. Разработанные в диссертации алгоритмы способны не только анализировать, но и редактировать неограниченное количество узлов предложения на каждом шаге. Более того, стало возможным распознавать и работать с многоуровневыми структурами предложений (подграфами). До настоящего времени алгоритмы преобразования предложений из естественного языка в UNL структуры и обратно, использовали грамматические правила, которые преобразовывают списковые структуры конкретного языка сразу в семантические сети "UNL Specifications" UNL Center of UNDL Foundation, универсального языка. Разработанный алгоритм основан на более гибком формате правил. Новый формат правил позволяет свободно манипулировать структурой графа предложения, например, предоставляет возможность непосредственного построения синтаксического дерева предложения. Синтаксическое представление является промежуточным, но важным (с лингвистической точки зрения) этапом преобразования предложений. Впервые разработан алгоритм, позволяющий проводить интерактивный процесс преобразования предложений из естественного языка в UNL и обратно. В отличие от существующих преобразователей EnConverter и DeConverter, данный алгоритм позволяет пользователю вмешиваться в произвольную стадию процесса преобразования (разбиение предложения, выбор слов из словаря и применение грамматических правил) и делать необходимые изменения для корректирования результата. Աշխատանքում հետազոտվում են գոյություն ունեցող UNL ռեսուրսները և նրանց հետ աշխատանքի համար մինչ այժմ մշակված ծրագրային միջոցները: Նաև նկարագրվում է նոր և բարելավված ծրագրային միջոցների մշակումը, որոնք օգտագործում են համեմատաբար նոր և արդյունավետ տեխնոլոգիաներ և ալգորիթմներ: Կիրառված բարելավումները ուղղված են բարձրացնելու մշակվող ծրագրային փաթեթի աշխատանքի որակը և արագությունը, ինչպես նաև դարձնել այն հասանելի ինտերնետում: Որակական բարելավման նպատակով մշակված է UNL-ի և բնական լեզուների փոխադարձ ներկայացման համար երկխոսական (ինտերակտիվ) համակարգ, որը թույլ է տալիս օգտագործողին միջամտել նախադասության սերման գործընթացին և հնարավորություն է տալիս համակարգին անալիզի ենթարկել այդ միջամտության արդյունքները (սովորել)՝ ստացած գիտելիքները հետագայում կիրառելու նպատակով: UNL-ը ներկայացնում է ինֆորմացիան սեմանտիկ ցանցերի տեսքով: Յուրաքանչյուր նախադասություն ներկայացվում է կապակցված և ուղղորդված գրաֆի տեսքոով: Ի տարբերություն բնական լեզվի, UNL-ով նկարագրված արտահայտության իմաստը միանշանակ է: UNL սեմանտիկ գրաֆերում հանգույցներին համապատասխանեցված են հասկացություններ (concept), որոնք կոչվում են «ունիվերսալ բառեր» (Universal Word, կրճատ՝ UW), իսկ կողերին՝ իմաստային (սեմանտիկ) կապեր, որոնք կոչվում են «հարաբերություններ» (relation): Ատենախոսությունը բաղկացած է ներածությունից, չորս գլուխներից, արդյունքների ամփոփումից և օգտագործվող գրականության ցանկից: Ներածությունում հիմնավորված է հետազոտվող թեմայի արդիականությունը, նշված են նպատակները, հիմնական խնդիրները և նրանց լուծման մեթոդները : Գլուխ 1.-ում դիտարկված են NL↔UNL փոոխադարձ ներկայացման համար կիրառելի ալգորիթմական և տեխնիկական լուծումներ և հետազոտությունների արդյունքներ: Նշված են գոյություն ունեցուղ խնդիրները և բարեփոխումների հնարավոր միջոցներ: Գլուխ 2.-ում մանրամասնորեն քննարկվում են NL, UNL և NL-UNL բառարանների կառուցվածքը և նրանց չափսերի աստիճանաբար աճի պատճառով առաջ եկող խնդիրները: Ներկայացվում է նշված խնիրների լուծման համար նպատակահարմար որոշակի ալգորիթմական և ծրագրային միջոցների համեմատական անալիզ: Որպես լուծում, առաջարկվում է Ահո-Կորասիկի ավտոմատի հիման վրա կառուցվող բառարանային փնտրման ալգորիթմի մշակումը և կիրառումը, ինչպես նաև, այդ ալգորիթմի բարելավման համար որոշակի լուծումներ: Aram Avetisyan THE DEVELOPMENT OF INTERACTIVE AND LEARNING SYSTEM FOR UNL AND NATURAL LANGUAGE TWO-DIRECTIONAL AUTOMATIC REPRESENTATION This thesis studies the existing UNL (Universal Networking Language) resources and the available tools developed to work with them. We also describe the approaches in the development of some enhanced solutions, with the usage of newer technologies and more efficient algorithms. The solutions used, are aimed to enhance the quality of the developed program tools, increase the processing speed and to insure their availability on the web. A UNL and natural language (NL) two-directional interactive representation system has been developed to enhance the processing result quality, by providing the user with an opportunity to intervene into NL↔UNL analysis and generation processes and make necessary corrections. Learning ability is developed by allowing the system to analyze the user corrections during the interactive processes and to use the gained knowledge in the future. UNL represents the natural language texts in a form of sematic networks. Each UNL expression can be presented as a connected directed graph. Unlike natural languages, UNL expressions are unambiguous. In UNL semantic graphs a concept is presented as a node. Those concepts are also called "Universal Words" or UWs. While the nodes represent concepts, the arcs represent the semantic relations between the concepts (UWs). The thesis consists of the following: an introduction, four chapters, results summary and a list of referred literature. The aim and main problems studied in the thesis are briefly presented in the introduction, along with the current status of UNL project developments. Chapter 1 studies some technologies and algorithmic solutions of machine translation theory, which may become a basis for the enhancement of NL↔UNL representation. This chapter highlights the main obstacles in the usage of currently available software for further UNL development. Chapter 2 introduces the NL, UNL and NL-UNL dictionaries structure and the problems that arise along with the gradual increase of developed dictionaries sizes. Several most suitable algorithms and technologies are being discussed in a comparative analysis in order find the possible solutions for the mentioned size handling problems. The Aho-Corasick string matching machine is being suggested as the most suitable basis for the development of NL-UNL dictionary matching algorithm to be used during the natural language analysis and UNL generation processes. In chapter 3 we present the current UNL grammar structures and the functionality, along with several steps taken for its optimization and enhancement. A project called "jDeCo" is being introduced, which is an experimental tool, is aimed to enhance the functionality of the DeConverter, by suggesting several algorithmic and technological improvements, including a new efficient rule matching algorithm. The development and the implementation of a new two-directional NL↔UNL representation algorithm is presented in chapter 4. The main compound parts of both the algorithm and the program are introduced. An algorithm is developed, that allows combining the main mechanisms of NL→UNL and UNL→NL processes into one. Also, a detailed description introducing the interactive processes of the natural language analysis and UNL generation, as well as the developed algorithm of the system learning are provided.

  Item Type: Thesis (PhD)
  Additional Information: Բնական լեզվի և UNL լեզվի կառուցվածքների փոխադարձ ավտոմատացված ներկայացման համար երկխոսական և ուսուցվող համակարգի մշակումը: The development of interactive and learning system for UNL and natural language two-directional automatic representation.
  Uncontrolled Keywords: Ավետիսյան Արամ Աշոտի, Avetisyan Aram
  Subjects: Control, Automation and Electrical Engineering
  Divisions: UNSPECIFIED
  Depositing User: NLA Circ. Dpt.
  Date Deposited: 24 Sep 2016 11:14
  Last Modified: 24 Sep 2016 11:14
  URI: http://etd.asj-oa.am/id/eprint/3478

  Actions (login required)

  View Item