Հայաստանի ատենախոսությունների բաց մատչելիության պահոց = Open Access Repository of the Armenian Electronic Theses and Dissertations (Armenian ETD-OA) = Репозиторий диссертаций Армении открытого доступа

Ինֆորմացիայի նկատմամբ սեփականության իրավունքը պահպանող հաշվարկներ

Թոփչյան, Վարդան Հակոբի (2014) Ինֆորմացիայի նկատմամբ սեփականության իրավունքը պահպանող հաշվարկներ. PhD thesis, ՀՀ ԳԱԱ Ինֆորմատիկայի և ավտոմատացման պրոբլեմների ինստիտուտ.

[img] PDF (Abstract)
Available under License Creative Commons Attribution.

Download (1017Kb)

    Abstract

    По мере интенсивного развития информационных технологий появляются новые подходы и средства автоматизации сбора и анализа персональных и других конфиденциальных данных. Статистические, финансовые и другие информационные структуры помимо выработки агрегированных данных и их предоставления общественности все больше прибегают к распределению данных близких к исходным. Это, во-первых, требование времени, но оно также нацелено на повышение независимого, общественного и научного управления и экспертизы путём целевого анализа этих данных. Социологические данные содержат значительный объем персональных или бизнес ориентированных данных. Публикация данных близких по формату и содержанию к исходным связана с риском раскрытия конфиденциальности этих данных. Противоречие требований прозрачности и конфиденциальности при публикации критических данных явилось основой возникновения нового исследовательского направления известного теперь как технологии ограничения раскрытия данных. Актуальность проблемы обосновывается новыми правовыми актами как например CIPSEA—the Confidential Information Protection and Statistical Efficiency Act of 2002 (Chance, 17(3):2125, 2004), и новыми исследованиями как EUREDIT - the development and evaluation of new methods for editing and imputation (IST-1999-10226 EC FP project, 2000 - 2003). Сложилось так, что первые подходы решения задачи предопределили две основные и взаимодополняющие технологии. Первый, криптографический подход создал по этому поводу концепцию гомоморфного шифрования, что нацелено на исполнении вычислений над шифрованными данными так, что получаются результаты анализа исходных данных. Второй подход возник на уровне статистической обработки анализа данных, что является подавляющей технологией, применяемой сегодня в данной области. В каждой из указанных двух направлений имеются успехи и нерешенные задачи. Криптография пытается разработать гомоморфные схемы, частичные и полные, однако на сегодняшний день нет эффективной системы для полного объема алгебраических вычислений. Полная система, относительно недавно объявленная компанией IBM, оценочно может стать жизнеспособной десятилетиями позже. Статистическое же направление началось с того, что оно пыталось заменить рассматриваемую задачу схемой оценивания / восстановления отсутствующих данных (missing data). Далее возникли схемы внесения возмущений и схемы генерации синтетических данных. Настоящая работа направлена на исследование иерархических структур анализа данных и пытается лучше использовать дополнительную информацию предметной области для повышения вычислительной скорости, а также для получения более адекватных синтетических данных эксперимента. Ինֆորմացիոն տեխնոլոգիաների ինտենսիվ զարգացմանը զուգընթաց առաջանում են անձնական և այլ կոնֆիդենցիալ տվյալների հավաքման և վերլուծման ավտոմատացման նոր միջոցներ և մոտեցումներ: Վիճակագրական, ֆինանսական և այլ ինֆորմացիոն կազմակերպությունները ագրեգացված տվյալների մշակումից և դրանց հասարակությանը տրամադրելուց բացի ավելի շատ միտված են տվյալները սկզբնականին մոտ բաշխելուն: Դա, նախ և առաջ, ժամանակի պահանջ է, բայց այն նաև ուղղված է այդ տվյալների նպատակային վերլուծության միջոցով անկախ, հասարակական և գիտական վերահսկման և փորձաքննության բարձրացմանը: Սոցիոլոգիական տվյալները պարունակում են մեծ ծավալի անձնական և բիզնես կողմնորոշում ունեցող ինֆորմացիա: Ֆորմատով և բովանդակությամբ սկզբնական տվյալներին մոտ տվյալների հրապարակումը կապված է այդ տվյալների գաղտնիության բացահայտման ռիսկի հետ: Կրիտիկական տվյալները հրապարակելիս դրանց բաց լինելու և կոնֆիդենցիալության պահանջների հակասությունը հիմք հանդիսացավ նոր հետազոտական ուղղության առաջացմանը, ներկայումս հայտնի ինչպես տվյալների բացահայտման սահմանափակման տեխնոլոգիաներ: Խնդրի արդիականությունը հիմնավովում է նոր իրավական ակտերով, ինչպես օռինակ CIPSEA—the Confidential Information Protection and Statistical Efficiency Act of 2002 (Chance, 17(3):2125, 2004), և նոր հետազոտություններով ինչպես EUREDIT - the development and evaluation of new methods for editing and imputation (IST-1999-10226 EC FP project, 2000 - 2003). Ըստ էության, որակյալ սինթետիկ տվյալների գեներացման ալգորիթմական խնդիրը կախված է ոչ միայն գեներացման մոդելից, այլ նաև տվյալներից: Աշխատանքի նորույթը կայանում է խնդրի տվյալների նախնական վերլուծության մեջ, ինչը տրամադրում է տվյալների` գեներացման մոդելին համապատասխանության մասին ինֆորմացիա: Այնուհետև, ատրիբուտների զույգերի վերլուծությունը, սահմանված ինչպես փոխադարձորեն կապված, և գեներացման հիերարխիկ ծառերի կիրառումը թույլ է տալիս կատարել արդյունավետ ընդհատում դրանով օպտիմիզացնելով կառուցման և հատումների ստանդարտ պրոցեսը: There appear new approaches and tools for automation of acquisition and analysis of personal and other confidential data due to the intensive development of information technologies for state and social needs. Statistical, financial and other information structures today are releasing not only the aggregated data, but also the data that is close to the original raw data. Firstly, this approach is the requirement of the time, but it is also aimed at growing the independent, public and scientific management of information, providing expertise through targeted analyses of the such data. Sociological data contain elements or personal or business oriented data. Publication of data close to the format and content of the original source is associated with the risk of that data aiming the so called privacy disclosure. Contradiction of transparency and confidentiality requirements in publication of critical data has been the basis for new research directions now known as a disclosure limitation technology. The importance and actuality of this problem area is visible by the new legal acts as for example CIPSEA - the Confidential Information Protection and Statistical Efficiency Act of 2002 (Chance, 17 (3): 2125, 2004), and the new Research projects such as EUREDIT-the development and evaluation of new methods for editing and imputation (IST-1999-10226 EC FP project, 2000-2003). Scientific novelty. In its essence, the algorithmic task of generation of high-quality synthetic data replacing the original raw data depends not only on model of data generation, but also on the raw data itself. The inside innovation of the work is in the preliminary analysis of the input data that provides additional information about the correspondence of input data to the generated synthesizing model. Further, analysis of pair attributes, which defined as correlated (accepting paired than the independent values), and subsequent use of the hierarchical tree with sets of such attributes allows generating an effective stop optimizing of the standard growing and pruning processes. Thus, analysis of original data uncovers opportunity of generating synthesized data replacement concealing privacy, and this analysis of pair correlations limits the algorithmic steps of the generation by raising its productivity.

    Item Type: Thesis (PhD)
    Additional Information: Ինֆորմացիայի նկատմամբ սեփականության իրավունքը պահպանող հաշվարկներ: Privacy preserving computations.
    Uncontrolled Keywords: Թոփչյան Վարդան Հակոբի, Vardan H. Topchyan
    Subjects: Informatics and Computer Systems
    Divisions: UNSPECIFIED
    Depositing User: NLA Circ. Dpt.
    Date Deposited: 05 Oct 2016 14:01
    Last Modified: 05 Oct 2016 14:01
    URI: http://etd.asj-oa.am/id/eprint/3566

    Actions (login required)

    View Item