Рус Eng Cn Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Historical informatics
Reference:

The Diachronic Corpus of the Buryat Language as a Digital Tool for Historical Research: Approaches, Solutions and Experiments

Rinchinov Oleg Sergeevich

ORCID: 0000-0003-1379-771X

PhD in Physics and Mathematics

Leading research worker, Institute for Mongolian, Buddhist and Tibetan Studies of the Siberian Branch of the Russian Academy of Sciences

670047, Russia, respublika Buryatiya, g. Ulan-Ude, ul. Sakh'yanovoi, 6

o.rinchin@gmail.com
Other publications by this author
 

 

DOI:

10.7256/2585-7797.2020.2.33446

Received:

13-07-2020


Published:

20-07-2020


Abstract: The article studies the diachronic corpus of the Buryat language compiled on the basis of annals written in old Mongolian used to reconstruct the history and historical geography of the Buryat people. In this regard, the article discusses the main problems of semantic markup of corpus data. The size of the corpus currently exceeds 82,000 words. The research novelty is that classical Mongolian texts presented in Latin transliteration are addressed by computer linguistics methods for the first time. The author describes approaches to develop the ontological outline of the historical and cultural subject area as well identifies the kinship and geographical context elements. The MS Access and SQL simulation experiment demonstrates the advantages of the authority control methodology, in particular the “family” and “place” categories, for the initial analysis of corpus data and the formation of semantic clusters. The use of authoritative records has significantly accelerated the accumulation of empirical data for automation of the substantive analysis of texts in the corpus. These experiments allowed the author to see further steps to create and improve the Buryat language diachronic corpus semantic markup tools and transform this language into a convenient tool for historical research.


Keywords:

Buryat chronicles, diachronic corpus, history, semantic markup, authority control, toponyms, ethnonyms, kinship, ontology, semantic cluster

This article written in Russian. You can find original text of the article here .

Бурятские летописи на старописьменном монгольском языке представляет собой ценные источники для изучения истории бурятского народа, восточных рубежей России в целом. Как особый жанр произведений они начали складываться в первой половине XIX в., когда по просьбе известного монголоведа О. М. Ковалевского буддийский священнослужитель Д.-Д. Гемпилон собрал и обобщил письменные свидетельства о происхождении селенгинских бурят, обстоятельствах принятия ими русского подданства, обустройстве в условиях российского государства [1, с. 261]. Этот сборник, содержащий более десяти исторических записок, авторами которых выступили селенгинские родовые старейшины, получил известность под названием «Бишихан запискэ». Начиная с этого памятника прослеживается традиция составления летописей, продолжавшаяся вплоть до первой трети XX в.

Бурятские летописи – это особый синтетический жанр исторических сочинений, объединивший в себе родовые предания и родословные, этногенетические мифы, элементы буддийской историографии, монгольские и тибетские традиции составления исторических хроник, российские официальные и историографические источники и т.д. Эти памятники зафиксировали бытовавшие среди бурят ранние формы литературного языка, основанные на классическом монгольском языке, но испытавшие влияние разговорных бурятских диалектов и русского языка [2]. В сочетании этих факторов заключается привлекательность изучения бурятских летописей как памятников исторического, литературного и языкового творчества бурятского народа и важных первоисточников в соответствующих областях науки. Они дошли до наших времен преимущественно в рукописных списках, которые хранятся в архивах и библиотеках Улан-Удэ, Санкт-Петербурга, Москвы, Иркутска, Читы и т.д. [3]

Начальный период научного изучения бурятских летописей связан с именами Н. Н. Поппе, А. И. Вострикова, В. А. Казакевича, Л. С. Пучковского и др. Так, в серии «Материалы для истории бурят-монголов» Института востоковедения АН СССР в 1930-х гг. были опубликованы набранные типографским способом тексты некоторых сочинений на старописьменном монгольском языке, сопровождаемые в ряде случаев переводом на русский язык [4, 5, 6, 7]. В последующие годы продолжалось активное изучение и издание этих ценных источников в переводах и переложениях на русский и бурятский языки [8, 9, 10]. Введенные в научный оборот материалы активно используются исследователями в разных областях – историками, этнологами, филологами, культурологами [11, 19, 20, 21, 22].

Вместе с тем, необходимо отметить, что развитие информационных технологий дает в руки исследователей новые инструменты изучения письменных памятников. Это лингвистические, статистические, геоинформационные методы, позволяющие вывести исследования летописных источников на новый уровень. Для этого необходимо, оставляя в стороне вопросы лингвистических и литературных особенностей памятников, выявить в содержании летописей элементы историко-культурного контекста. Поскольку эти исторические нарративы содержат значительное количество имен исторических лиц, названий бурятских родовых и территориальных групп, топонимов, покрывающих территории этнической Бурятии и зарубежья, различных дат и событий на протяжении нескольких веков, выявление и агрегация такого рода информации создает основу для реализации новых способов реконструкции истории и исторической географии бурятского народа.

В этой связи возникает проблема организации наиболее удобного доступа к информации, содержащейся в памятниках письменности этого жанра. Решить ее появилась возможность в ходе создания диахронического корпуса бурятского языка, что является одной из задач проекта «Старописьменные памятники бурят как культурное достояние» (грант РФФИ № 18-012-00665, рук. д.ф.н. Бадмаева Л. Б.). Данный корпус создается на основе произведений бурятских авторов на старописьменном монгольском языке, причем на первом этапе основное внимание обращено на сочинения, относящиеся к жанру летописей. При организации монгольских текстов в диахронический корпус решаются задачи метатекстовой и лексико-грамматической, в том числе семантической, разметки текстов. На основе корпусных данных создаются дополнительные инструменты, такие как частотные словари, конкордансы, указатели и т.д., которые формируют современную среду исследования текста и связанных с ним контекстов, включая лингвистический и, в случае летописей, исторический.

К настоящему времени (весна-лето 2020 г.) основой диахронического корпуса бурятского языка служат тексты пяти летописей, опубликованных в серии «Материалы по истории бурят-монголов» в 1930-х гг.:

1) «История баргузинских бурят» Цэдэбжаба Сахарова [4, с. 51–66];

2) «Прошлая история хоринских и агинских бурят» Тугултур Тобоева 1863 года [6, с. 5–47];

3) «История происхождения одиннадцати хоринских родов» Вандана Юмсунова 1875 года [6, с. 53–172];

4) «История селенгинских монгол-бурят» Дамбижалцана Ломбоцыренова [5];

5) «История бурятского народа одиннадцати хоринских родов» Шираб-Нимбу Хобитуева [7].

Для представления текстов на монгольском языке в электронном корпусе участниками проекта была выполнена их латинизированная транслитерация. В процессе транслитерации благодаря применению особых пунктуационных правил сохранялась исходная структура печатного текста на старомонгольской письменности. Выделялись и обозначались предложения, строки, абзацы, страницы; отмечались также параграфы и главы при их наличии в обрабатываемом тексте.

Общий размер корпуса составляет больше 82,6 тыс. словоупотреблений, на основе которых был составлен частотный словарь в более чем 10,3 тыс. словоформ [12]. Метатекстовая разметка корпуса была выполнена на основе спецификаций Text Encoding Initiative (TEI), поскольку этот стандарт обеспечивает разумный баланс между потенциальной общностью модели и простотой реализации [13, 14]. Для кодирования метаинформации о текстах, входящих в состав корпуса, спецификация TEI определяет набор параметров для указания автора, названия, времени создания и издания, определения жанровой и стилистической характеристик текста, данных о его длине, источнике получения электронной версии текста и т.д. Метатекстовая разметка выполнена с применением приложения TEI Corpus Header, созданного ранее для корпуса бурятского языка. Метаописание документа, реализованное в данном проекте, содержит необходимый объем описательной информации для идентификации текстов корпуса и гибкого оперирования данными в дальнейших исследованиях [15].

При создании специализированных корпусов текстов производится лингвистическое аннотирование (морфологическое, синтаксическое) и предметно-ориентированная семантическая разметка корпусных данных. В настоящее время выполняется лексико-грамматическое аннотирование диахронического корпуса бурятского языка, что подразумевает лемматизацию данных, определение грамматических, в первую очередь морфологических, характеристик [16]. Это трудоемкий и долгий процесс, который в данном случае затрудняется отсутствием электронных словарей для старописьменного монгольского языка, представленного в транслитерации, и соответствующего программного обеспечения. Поэтому лексико-грамматическая разметка диахронического корпуса осуществляется вручную.

Однако даже в настоящем виде корпус уже представляет интерес для разнообразных исследований. Например, его можно использовать для изучения исторического и географического контекста бурятских летописей, для чего необходимо предпринять частичную семантическую разметку, определяя и обозначая особым образом личные имена, этнонимы, топонимы, титулы и другие содержательные элементы, отражающие специфику и формирующие онтологическую схему исторического документа летописного жанра [17].

В предпринятом нами экспериментальном исследовании возможности автоматизации семантического анализа корпусных данных онтология предметной области была ограничена топонимами и этнонимами. Отчасти это было сделано для упрощения эксперимента; с другой стороны, данные о географии и родовой структуре очень важны в изучаемом нами историко-географическом контексте бурятских летописей. Семантическая разметка осуществлялась для частотного словаря словоформ, в котором определялись и выделялись специальными тэгами топонимы и этнонимы. Таким образом была сформирована базовая экспериментальная онтология предметной области. Затем с помощью средств СУБД MS Access осуществлялась разметка в основном массиве данных диахронического корпуса. Задача снятия омонимии, в данном случае, семантической неоднозначности, выполнялась вручную в результате изучения непосредственного контекста вычисленных точек доступа, связанных с определёнными элементами онтологии.

Поскольку такая работа с текстовыми данными на старописьменном монгольском языке, приведенными в латинице, выполняется впервые, то отсутствуют инструменты, в первую очередь, словарные базы данных для автоматизации работы. Существенной помощью стали авторитетные базы данных, создаваемые в рамках других проектах по оцифровке бурятского письменного наследия, например, «Исследование корпуса бурятских родословных в Центре восточных рукописей и ксилографов ИМБТ СО РАН» (грант РФФИ № 18-49-030011, рук. канд. физ.-мат. наук Ринчинов О.С.). Этот проект нацелен на создание базы данных генеалогических источников, для структуризации которых применяется методология авторитетных данных. В ходе содержательного описания документов созданы наборы данных, соответствующих категориям авторитетного контроля «Лицо», «Род/семья», «Место» [18]. Для того, чтобы их можно было применить к исследуемому диахроническому корпусу, объекты авторитетного контроля, наряду с основным и вариантными названиями на русском и бурятском языке, были дополнены эквивалентами на старописьменном монгольском языке в латинской транслитерации (например, этнонимы: хориqori, ашабагатašibaγadи т.д.; топонимы: Селенга selingge, Витимbiitim и т.д.). Это несколько облегчает выявление в общей совокупности корпусных данных, включая частотный словарь, точек доступа (вхождений) терминов, относящихся к интересующим нас категориям, и, кроме того, обеспечивает включение диахронического корпуса в общий контекст изучения письменного наследия, проводимого в Центре восточных рукописей и ксилографов ИМБТ СО РАН.

Одной из проблем, которые практически неизбежно встают в ходе исследований, является вариативность представления топонимов и этнонимов в диахроническом корпусе. Например, встречаются следующие варианты написания (в скобках приведена частота слова в корпусе): этноним сонгол (одна из родовых групп бурят) – congγol (23), congγul (8); топоним Цуголcügel (17), čugel (1), čügel (1), cüügel (5). Такая вариативность может быть вызвана следующими причинами:

1) отсутствие нормализованной орфографии написания бурятских слов на старописьменном монгольском языке в период написания летописей в 19 в.;

2) ошибка, допущенная при переписывании оригинала (большинство произведений дошло до наших дней в списках);

3) ошибка, допущенная при наборе рукописного монгольского текста во время подготовки печатных изданий;

4) ошибка, допущенная при транслитерации печатного монгольского текста на латинице в ходе выполнения данного проекта.

Проверка этих гипотез в каждом конкретном случае является трудоемкой задачей, поэтому в авторитетную запись, относящуюся к тому или иному термину, включаются все обнаруженные варианты его написания.

Эксперимент по автоматизированному определению элементов историко-географического контекста в диахроническом корпусе бурятского языка выполнялся с помощью СУБД MS Access, в качестве базового средства моделирования запросов выступал SQL. Порядок проведённого нами эксперимента выглядит следующим образом:

1) выбирается произвольный термин из авторитетной базы данных;

2) в автоматизированном режиме определяются все первичные текстовые контексты (в нашем случае - предложения) в диахроническом корупсе, в которых он участвует;

3) эти участки текста автоматически исследуются на наличие точек доступа других элементов авторитетного контроля, каждое вхождение документируется особой пометой, специфической для каждой категории авторитетных данных;

4) в результате формируются смысловые пары вида «этноним: топоним», «этноним: этноним», которые могут также рассматриваться и в обращенном виде.

Анализ семантической состоятельности получившихся пар в нашем эксперименте осуществлялся вручную. Так, для этнонима сонгол, имеющего варианты congγol, congγul, обнаружен 31 контекст употребления. Анализ этих контекстов дал 84 смысловые пары типа «этноним: топоним» и «этноним: этноним», помимо автопар. Из них 55 пар относятся к семантическому кластеру религиозной жизни (в окрестности каждой из них встречаются слова dačangдацан, blam-aлама и т.д.), 28 пар формируют кластер родо-племенной (административной) структуры или географического положения (в окрестности обнаруживаются слова obuγ / otрод, orunстрана, gübiirnskeгуберния, губернский и т.д.). 1 пара принадлежит общекультурному контексту: tübed üsüg – тибетская письменность. По приведенному плану осуществляется исследование других терминов, относящихся к указанным категориям авторитетных данных, производится накопление эмпирических данных для формирования семантических кластеров в историко-культурной предметной области. Накапливаемые данные послужат основой для разработки автоматизированных средств семантического анализа включенных в диахронический корпус текстов.

Результаты эксперимента позволяют сделать вывод, что получаемые в автоматизированном режиме смысловые пары вполне отражают содержательные контексты анализируемых терминов, а значит, автоматизация семантического анализа корпусных данных принципиально возможна. Полная автоматизация и улучшение работы указанного алгоритма будет происходить за счет расширения семантической разметки корпусных данных, накопления статистики успешных сопоставлений и формирования кластеров, совершенствования программного обеспечения, увеличения размера самого корпуса за счет включения новых текстов.

Выполненный нами вычислительный эксперимент показал, что диахронический корпус бурятского языка, создаваемый в рамках проекта «Старописьменные памятники бурят как культурное достояние», является эффективным инструментом изучения и реконструкции истории и исторической географии бурятского народа. Эффективность его использования обеспечивается интеграцией корпусных данных с другими текстовыми, геоинформационными электронными ресурсами на основе методологии авторитетных данных. Проведенные нами эксперименты показали, что авторитетные данные категорий «род/семья», «место», «лицо» являются важной частью онтологии исторической и историко-географической предметной области, в существенной мере отражая тематико-содержательную специфику произведений летописного жанра. Они также позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный и доступный инструмент исторических исследований.

References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.