Historical Information Science in the Context of Data Science (Round Table Materials)

Бородкин Л.И., Владимиров В.Н.

doi:10.7256/2585-7797.2020.2.33549

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Back to contents

Historical informatics

Reference:

Borodkin, L., Vladimirov, V.N. (2020). Historical Information Science in the Context of Data Science (Round Table Materials). Historical informatics, 2, 234–246. . https://doi.org/10.7256/2585-7797.2020.2.33549

Historical Information Science in the Context of Data Science (Round Table Materials)

Borodkin Leonid

Doctor of History

Professor, Historical Information Science Department, Faculty of History, Lomonosov Moscow State University

aud. 454, 27-4, ul. Lomonosovskii Prospekt, g. Moscow, Russia, 119991

lborodkin@mail.ru

Other publications by this author

Vladimirov Vladimir Nikolayevich

Doctor of History

Professor, Department of Russian History, Altai State University

656049, Russia, Altai Krai, Barnaul, Lenin Avenue, 61, room 312

vvladimirov@icloud.com

Other publications by this author

DOI:

10.7256/2585-7797.2020.2.33549

Received:

23-07-2020

Published:

30-07-2020

Abstract: The article focused on problems and prospects caused by the rapid development of data science and discusses the opinions and remarks made by the participants of the round table called "Methods and Technologies of Data Science: Its Prospects in Historical Research" held by the editorial board of the "Historical Information Science” journal " and the Association "History and Computer" on July 3, 2020. The round table was attended by over 60 teachers, researchers, as well as students from 5 countries. Online discussions and talks were assisted by Zoom video conferencing service. The participants addressed issues related to the term "data science" itself, artificial intelligence and big data issues. All these were discussed in the light of problems that arise and are solved in the framework of historical research. The speakers addressed the problem of historical sources digitization and text recognition, the opportunities of programming languages (R and Python) use as well as many other issues. The very fact of the round table and its results have demonstrated the undeniable usefulness of the dialogue and the need to develop this form of scientific contacts. It is emphasized that that the development of such a field as "digital historical source studies" is becoming more and more urgent.

Keywords:

data science, historical information science, big data, artificial intelligence, machine learning, artificial neural networks, mathematical statistics, programming, digitization, image recognition
This article written in Russian. You can find original text of the article here .

Проведение круглого стола «Методы и технологии Data Science: перспективы использования в исторических исследованиях» было инициировано редакционной коллегией журнала «Историческая информатика» и Ассоциацией «История и компьютер» (АИК). Заседание состоялось 3 июля 2020 г. в режиме онлайн. В его работе приняли участие преподаватели, научные сотрудники, аспиранты – исследователи, интересующиеся проблематикой создания цифровых ресурсов и обработки данных, спецификой «больших данных» в гуманитарных исследованиях и другими направлениями быстро развивающейся науки о данных.

Открыл работу круглого стола президент АИК д.и.н. В.Н. Владимиров (Барнаул), отметивший, что обсудить проблемы, связанные с наукой о данных (Data Science) собрались свыше 60 человек из России, Белоруссии, Казахстана, Кыргызстана, Узбекистана. Это говорит, в первую очередь, о заинтересованности в теме, которая предложена к обсуждению. Но не последнюю роль играет и возможность онлайн-общения, которое позволяет вести дискуссию в режиме реального времени, что удается в последнее время из-за сложной санитарно-эпидемиологической обстановки довольно редко.

Выступающий напомнил, что Data Science – это наука о данных, о том, как следует с ними работать, чтобы найти нужное и правильное решение. В более строгом определении – это раздел информатики, связанный с обработкой данных в цифровой форме. Это направление переживает сейчас настоящий бум, не удивительно, что ему посвящены многочисленные конференции, так, например, вторая ежегодная конференция Европейской Ассоциации цифровых гуманитарных наук (EADH), которая состоится в следующем году в Красноярске, имеет название «Данные в междисциплинарном пространстве». Уже известно, что очередная, XVII конференция Ассоциации «История и компьютер», пройдет осенью этого года под названием «Исторические исследования в контексте науки о данных: информационные ресурсы, аналитические методы и цифровые технологии».

Что касается научного сообщества, связанного с исторической информатикой, то в нем всегда уделялось большое внимание данным. Прежде всего, современная квантитативная история, являющаяся одной из важных составных частей предметного поля исторической информатики, уделяла и уделяет огромное внимание анализу данных. Вообще, подготовка данных и выбор адекватных методов их обработки – необходимое условие любого исследования. Создание баз данных и работа с ними всегда пользовались большим вниманием в сообществе историков, применяющих количественные методы и компьютерные технологии в своих исследованиях. Работа с данными неизбежно обращает нас к тому, что мы называем источниками данных, а это, собственно, и есть исторические источники. Следовательно, наука о данных имеет важнейшее значение для истории, а своеобразной «стыковой» областью здесь является историческое источниковедение, в особенности та его часть, которую можно назвать «цифровым источниковедением», о необходимости разработки которого так много говорится в последнее время. В работах, опирающихся на историческую информатику, не раз высказывалась мысль о необходимости усиления внимания к тщательной подготовке данных для компьютеризованного исследования, что не ставит знак равенства между цифровым и традиционным источниковедением, но сближает их.

Конечно, наука о данных вызвана к жизни прежде всего новыми явлениями, которые отмечены в содержании нашего круглого стола (искусственный интеллект, «большие данные» и т.д.), но и базы данных, и анализ данных также являются ее составной частью.

В заключение В.Н. Владимиров выразил уверенность, что сегодняшний круглый стол окажется для всех чрезвычайно полезным, поскольку кого-то он познакомит с проблематикой науки о данных, кому-то даст возможность углубить свои знания в этом направлении, а кому-то поможет передать свое понимание широкому кругу исследователей.

* * *

Основным докладчиком на круглом столе был главный редактор журнала «Историческая информатика», чл.-корр РАН Л.И. Бородкин (Москва), начавший свое выступление с упоминания недавней инициативы Сбербанка, предложившего проект по расшифровке рукописей Петра Первого с помощью технологий искусственного интеллекта (об этом 29 июня с.г. сообщило ТАСС). Важно отметить, что Сбербанк является федеральным центром компетенций в сфере искусственного интеллекта. Это сообщение заинтересовало историков, хотя и вызвало у них ряд скептических оценок перспектив такого проекта.

Адресуясь к основной теме круглого стола, Л.И. Бородкин остановился на следующих, наиболее актуальных, вопросах.

Наука о данных (Data Sсience)

Этот термин получил широкое распространение с начала 2000-х гг., когда привычные методы обработки и анализа данных, основанные на методах математической статистики, стали активно дополняться методами и технологиями искусственного интеллекта, а затем и больших данных. Статистические методы и сегодня часто рассматриваются как важная компонента науки о данных, но неотъемлемой ее частью стали методы обучения машин, искусственные нейросети и другие технологии искусственного интеллекта. Основная цель универсального специалиста по анализу данных – выявить закономерности в имеющихся данных и извлечь скрытую в них информацию на базе широкого набора аналитических инструментов – от методов математической статистики до машинного обучения, искусственных нейросетей и технологий больших данных. В отличие от традиционного статистического анализа в науке о данных меньше внимания уделяется проверке априорных гипотез, предварительная загрузка данных в модели может не проводиться, но при этом требуется иметь больше компетенций в информационных технологиях, программировании, методах визуализации. И хотя большинство таких специалистов работают в сфере бизнес-приложений, спрос на них растет и в социально-гуманитарных исследованиях. Сегодня уже можно говорить о наметившейся тенденции введения курса «Наука о данных» в учебный план образовательных программ гуманитарного профиля. Так, на истфаке МГУ уже 40 лет читается семестровый курс математической статистики, обязательный для всех студентов 2-го курса, а специализация на кафедре исторической информатики включает такие дисциплины как «Моделирование исторических процессов» и программирование на языках R и Python (с 2020 г.).

Историк и искусственный интеллект.

В толковом словаре 1992 г. по искусственному интеллекту предложено такое определение этого термина: «Искусственный интеллект – это научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными» (авторы – известные ученые в данной области М.Г. Гаазе–Рапопорт, Д.А. Поспелов и А.Н. Аверкин). Эта область информатики (первоначально – кибернетики) развивается с 1950-х гг. Сегодня искусственный интеллект – широкая область теоретических исследований и прикладных разработок, она включает целый ряд направлений. Для гуманитарных наук актуальными являются машинное обучение (наиболее популярный его вид связан с использованием искусственных нейронных сетей); распознавание образов; экспертные системы (основанные на базах знаний); репрезентация знаний; обработка естественного языка (NLP); нечеткие модели и др.

Имеют ли историки опыт применения методов искусственного интеллекта? Да, такой опыт имеется, и он немалый, берущий начало еще в прошлом веке. Первые публикации в этой области появились в 1980-х – 1990-х гг. и были связаны с применением когнитивных компьютерных моделей понимания текста, а также с разработкой экспертных систем ^[1]. Обзор этих ранних работ содержится в нашей статье ^[2].

В те годы были предложены специальные методики анализа политических текстов, ориентированные на реконструкцию политического мышления. В нашей стране это направление разрабатывалось В.М. Сергеевым и связанной с ним группой исследователей, которые подвергли когнитологическому анализу исторические тексты целого ряда политических деятелей (включая Бисмарка). Их результаты изложены в сборнике статей, выпущенном в 1990 г. Институтом США и Канады АН СССР: «Когнитивные исследования за рубежом (Идеи и методы искусственного интеллекта в изучении политического мышления)».

Один из примеров такого исследования связан с использованием известной компьютерной программы РЕЛАТУС, которая являлась системой искусственного интеллекта для представления и анализа текстов на английском языке. Она использовалась историками не только для анализа структуры политических выступлений, но и для построения когнитивных моделей, основанных на семантическом содержании этих текстов.

Не меньший интерес представляют и фреймовые системы. Один из первых примеров использования историками концепций искусственного интеллекта связан с проектом RESEDA, реализованным в Париже, в Национальном центре научных исследований в 1980-е гг. Основу его составляет биографическая база данных, включающая сведения о сотнях персонажей истории Франции конца XIV – начала XV вв. Структура базы позволяет акцентировать внимание на выявлении причин тех или иных событий, что достигается за счет введения системы «эпизодов», которые формализуются в виде фреймов, т.е. формальных смысловых конструкций, задающих определенный тип действия.

Интересную экспертную систему (ЭС) для проведения историко-топонимических исследований разработал в начале 1990-х гг. Ю.Е. Храмов. Эта система, получившая название ГИДРОНИМИКОН, предназначена для анализа происхождения гидронимов Восточной Славии (Белоруссии, Украины и Европейской России). В качестве программной оболочки было использовано средство создания экспертных систем ЛОТА, включающее блок распознавания образов и процедуры дедуктивного вывода.

Разработка программных средств для реализации процедур искусственного интеллекта требует использования специальных языков программирования. Особый интерес для гуманитарных приложений представлял в те годы язык высокого уровня PROLOG, обладавший гибкостью, сравнимой с возможностями «естественных» языков, что позволило Ж. Карвалью разработать экспертную систему, воплощающую опыт специалистов по восстановлению истории семей ^[3]. Конкретный вид правил (известных под названием record linkage), применяемых в такой экспертной системе, зависит от периода времени и региона, к которым относятся анализируемые данные.

Первая книга, посвященная использованию экспертных систем в исторических науках, была издана в 1988 г. под редакцией знаменитого французского археолога Жана-Клода Гардена, хотя идеи о привлекательности археологии как области приложения методов искусственного интеллекта высказывались еще в 70-е гг. прошлого столетия. В этой книге Гарден отмечает, что руководимая им группа историков и археологов пришла к необходимости использования ЭС через понимание того, что нужна более прочная основа для аргументации выводов в гуманитарных исследованиях. Используя возможности экспертной оболочки SNARK, Гарден и его коллеги провели исследование шести проблем древней и средневековой истории. Разработка экспертных систем, содержащих базы данных, базы знаний и правила вывода, построенные Гарденом и его коллегами, потребовала четкой формулировки «эмпирико-индуктивных и гипотетико-дедуктивных» процедур аргументации, которые могут использоваться при решении широкого круга историко-археологических задач.

Еще одной апробированной областью для использования ЭС в гуманитарных науках является атрибуция исторических и литературных текстов. В этих задачах весьма эффективной оказалась программная оболочка экспертной системы KES.HT.

Алгоритм машинного обучения был предложен Л.И. Бородкиным при разработке распознающей программы АМСОР, включающей нечеткие решающие правила. Эта программа использовалась при решении задач аграрной типологии Европейской России конца XIX – начала XX вв. ^[4]. Использование диалогового интерфейса делало эту систему, включающую программу FuzzyClass, гибким инструментом при решении многомерных классификационных задач, позволяющим учитывать знания эксперта.

* * *

Цифровая трансформация последнего десятилетия способствовала резкому увеличению интереса к возможностям применения технологий искусственного интеллекта во всех прикладных областях. Особенно это коснулось методов машинного обучения в его наиболее распространенном варианте, связанном с возможностями искусственных нейронных сетей. Смысл работы исследователя в простейшем случае связан с тем, что «сеть» (программа) получает на входе объекты обучающей выборки, каждый из которых принадлежит к одному из двух классов (А или В). Сеть «настраивается» на параметры класса А и класса В, а затем может распознавать объекты, принадлежность которых к классам неизвестна.

В XXI в. появились исследовательские проекты, в которых машинное обучение использовалось (уже на новом технологическом витке цифровых технологий и алгоритмов) для решения различных задач в области археологии, сохранения культурного наследия, в конкретно-исторических исследованиях. Дадим очень краткую характеристику этих работ. Подробный обзор будет опубликован в одном из последующих номеров журнала.

Начнем с упоминания о докладах в программе Международной конференции DH 2019 (Утрехт), включающих применение методов искусственного интеллекта в исторических исследованиях.

В докладе китайских авторов были представлены результаты использования машинного обучения с помощью методики SRL (Semantic role labeling), позволяющей реализовать идентификацию определенных событий по хроникам династии Мин ^[5].

Методы глубокого (машинного) обучения использовались в исследовании Наполеоновских кадастров начала XIX в., охватывавших миллионы земельных участков на территории Европы. Авторы решили задачу их идентификации, сформировав информационную систему ^[6].

Интересное исследование проводилось по материалам корпуса оцифрованных голландских газет второй половины ХХ в., в котором на обучающей выборке была проведена разметка, выделявшая различные жанры газетных статей. В итоге для остальных выпусков с помощью машинного обучения была определена жанровая принадлежность ^[7].

Актуальной задачей является распознавание отсканированных рукописных и старопечатных текстов – ведь ежедневно делаются доступными пользователю тысячи страниц оцифрованных, но не являющихся машиночитаемыми источников. Надо признать, что существующие методы распознавания знаков таких текстов пока еще далеки от совершенства. Один из представленных в Утрехте докладов был связан с разработкой вспомогательной методики для сегментации строк рукописных текстов в ходе распознавания. Большинство современных методов распознавания рукописного текста работают с сегментированными строками текста. Качество сегментации строк напрямую влияет на производительность системы распознавания. Поэтому в документах с существенно соприкасающимися или перекрывающимися элементами важно четко разделять строки текста. В докладе предлагаются два метода высококачественного разделения таких элементов текста, а также проводится оценка полученной сегментации по тексту средневековой рукописи, имеющей многочисленные перекрывающиеся элементы ^[8].

В ходе круглого стола участники проявили интерес к литературе о применении методов искусственного интеллекта в прикладных областях истории. Ниже даются соответствующие ссылки.

Археология. Археологи опубликовали немало работ в этом направлении. Здесь методы машинного обучения чаще всего применяются в задачах классификации и типологии ^{[9],[10],[11]}.

Сохранение культурного наследия. В этой области проводятся регулярные конференции и семинары, на которых обсуждаются различные подходы к использованию машинного обучения и искусственных нейросетей в задачах атрибуции объектов культурного наследия, их типологии, ландшафтных виртуальных реконструкций ^{[12],[13],[14],[15]}.

Отметим также, что применение методов искусственного интеллекта в гуманитарных исследованиях вызывает и критические комментарии ^[16].

Историк и большие данные

Если говорить об использовании оцифрованных данных в истории, то и в России, и в других странах абсолютное большинство возникающих задач можно решить на «продвинутых» персональных компьютерах. В то же время появляются задачи, для решения которых мощностей обычной вычислительной техники уже не хватает. Это порождает вопрос: работают ли историки сегодня с большими данными? Ответ зависит от того, какого определения мы придерживаемся. Недавно в нашей стране был принят Национальный стандарт РФ «Большие данные», в котором подробно определены соответствующие дефиниции и технологии. Большие данные (Big Data) определяются как большие массивы данных, с учетом таких их характеристик, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа. Масштабирование подразумевает возможность расширения репозиториев поступающих потоковых данных и их обработку на параллельно работающих распределенных ресурсах.

Эти технологии альтернативны традиционным технологиям баз данных. Хотя строгое определение больших данных подразумевает их потоковую природу (непрерывное их поступление), в практике социально-гуманитарных исследований такие данные встречаются редко (исключение сводится, пожалуй, к исследованиям социальных сетей с их непрерывным информационным потоком, порождаемым Интернет-сервисами); зато в исторических исследованиях возникает необходимость анализа огромного объема разнородных источниковых данных, работа с которыми не может производиться с использованием компьютеров и стандартного программного обеспечения, привычных для пользователей-историков. Даже при отсутствии потоковых данных хранение и обработка информационного массива, объем которого исчисляется десятками и сотнями терабайт, требует специальных технических и программно-алгоритмических решений, поскольку стандартные аппаратные и программные средства в подобных ситуациях бесполезны. При этом данные должны быть распределены, как правило, по вычислительным узлам, кластерам. В этой связи встает также вопрос о языках программирования для обеспечения эффективной обработки больших данных с использованием параллельных вычислений (примеры таких языков – Python, R и др).

Материалы ряда недавних конференций по технологиям Big Data позволяют сделать вывод о том, что сегодня в отмеченных ситуациях говорят о допустимом расширении определения больших данных, когда данные могут не иметь потоковой природы, но объем их настолько велик, что не может храниться и обрабатываться стандартными средствами. Характерной особенностью таких данных в исторических исследованиях является не только огромный объем источниковых данных, лежащих в основе масштабных компаративных исследовательских проектов, реализуемых историками в составе международных коллабораций, но и вариативность, поливидовой характер этих источниковых комплексов. На сегодняшний день есть несколько таких примеров. Так, британские историки провели (в коллаборации с коллегами из Канады и США) обработку данных переписей населения Англии, проведенных в 1851-1911 гг., на основе первичных переписных листов, охвативших 190 млн. персоналий. Очевидно, хранение и обработка такого массива данных на ноутбуках, с использованием обычных технологий баз данных и статистических программ, не может быть реализована, здесь потребовались технологии Big Data. Таких примеров пока совсем немного ^[17], но по мере расширения международных коллабораций историков, работающих в рамках масштабных компаративных проектов с достаточным финансированием, технологии Big Data могут оказаться более востребованными.

Нередко в последние годы в публикациях историков или в докладах на конференциях исторического профиля можно прочитать или услышать, что авторы работают с большими данными. При ближайшем рассмотрении оказывается, что речь идет о том, что создана база данных, включающая уже несколько тысяч или десятков тысяч записей – «это много, можно считать, что это уже большие данные». Разумеется, в таких работах не возникает необходимости в алгоритмах и технологиях параллельной обработки данных, когда выполнение операций распределено между узлами компьютерной сети. Теперь, в связи с принятием Национального стандарта больших данных (согласованного с Международным стандартом), вопрос об использовании гуманитариями терминологии Big Data требует большей корректности.

Подводя итоги своего выступления, Л.И. Бородкин отметил, что арсенал методов науки о данных продолжает расширяться, перспективы применения историками новых методов и технологий, охарактеризованных выше, представляются вполне оптимистичными; но сегодня основную роль в обработке данных исторических источников играют по-прежнему методы статистического анализа. И это справедливо при работе как со статистическими, так и с текстовыми источниками.

* * *

Вторая часть круглого стола включала выступления, вопросы и дискуссии участников. В презентации, представленной доцентом кафедры технологий программирования Полоцкого государственного университета, к.т.н. А.Ф. Оськиным (Полоцк), были рассмотрены вопросы, связанные с методологией проведения интеллектуального анализа данных. Кроме того, выступающий коснулся проблем обучения этой методологии и выбора языка программирования.

CRISP-DM (Cross-Industry Standard Process for Data Mining – межотраслевой стандартный процесс для исследования данных) – это наиболее распространенная, подтвердившая свою высокую эффективность методология проведения интеллектуального анализа данных, широко применяемая в промышленности. С не меньшим успехом данная методология может быть использована для проведения анализа данных в исторических исследованиях.

Жизненный цикл исследования, выполняемого в соответствии с методологией CRISP-DM, состоит из шести стадий: понимание бизнес-целей, начальное изучение данных, подготовка данных, моделирование, оценка полученных результатов и внедрение. Наиболее трудоёмкими являются стадии начального изучения и подготовки данных. По оценкам экспертов, на выполнение этих этапов затрачивается до 80% всего времени работы над проектом. В этой связи актуальными становятся проблемы автоматизации этих стадий процесса, и, как следствие, выбор наиболее подходящего языка программирования. По мнению докладчика, наиболее подходящим для решения сформулированных проблем является язык R. В презентации были кратко обсуждены достоинства этого языка и перечислены ресурсы, с помощью которых его изучение и последующее использование может быть организовано наиболее эффективно.

В заключение было рассмотрено два ресурса, знакомство с которыми желательно для всех занимающихся интеллектуальным анализом данных. Kaggle (https://www.kaggle.com) – это социальная сеть специалистов по обработке данных и машинному обучению, а также система организации конкурсов по исследованию данных KDnuggets™ (https://www.kdnuggets.com/) – интернет-портал, посвященный таким научным направлениям, как искусственный интеллект, большие данные, интеллектуальный анализ данных, наука о данных, машинное обучение.

На круглом столе выступили также к.и.н. И.Н. Киселев (Москва), акцентировавший внимание слушателей на проблемах оцифровки архивных документов и д.и.н. И.М. Гарскова (Москва), обратившая внимание на особенности программирования в среде языков R и Python (использование интерфейса командной строки), что ограничивает возможности их широкого использования гуманитариями. Д.и.н. С.И. Корниенко (Пермь) остановился в своем выступлении на трудностях оцифровки дореволюционных газет, опираясь на опыт выполнения ряда проектов в Пермском государственном университете, и выразил мнение об отсутствии на сегодняшний день надежных и эффективных средств распознавания газетных текстов.

Параллельно основной «голосовой» дискуссии проходило и весьма активное обсуждение поставленных вопросов в чате Zoom-конференции. Конечно, здесь не было столь развернутых и аргументированных выступлений, однако, формулировались интересные вопросы и некоторые моменты, которые можно назвать концептуальными. Активными участниками дискуссии были к.и.н. А.А. Акашева (Нижний Новгород), к.и.н. И.Г. Силина (Москва), д.и.н. Е.М. Главацкая (Екатеринбург) и многие другие.

Основной импульс начала «письменной» дискуссии дало изложенное выше выступление Л.И. Бородкина. Наибольший отклик нашли разделы доклада о возможностях искусственного интеллекта и их использовании, в частности, при оцифровке и распознавании исторических текстов. Интересные мысли были высказаны, например, о роли биологических подходов в этом направлении, например, использовании нейросетей (М. Лопатин, Калининград). При этом к.ф-м.н. Ю.В.Кузьмин (Москва) подчеркнул, что мы должны понимать процедуру получения научного результата, чего не происходит при использовании искусственных нейросетей. Это приемлемо для практической деятельности, но противоречит идее научного подхода. Отвечая на заданный вопрос о примерах применения искусственного интеллекта в исторических работах, Е.М. Главацкая указала, в частности, на статью норвежского исследователя Г. Торвальдсена «Связывание записей в историческом регистре населения Норвегии», опубликованную в журнале «Историческая информатика» (№2 за 2019 г.).

Многие участники круглого стола подчеркивали, что проблемы, связанные с распознаванием различных текстов, до сих пор не решены. Стоит вспомнить, что подобные дискуссии активно разворачивались примерно четверть века назад, но сегодня оказывается, что прогресс в этой области не столь велик, как этого бы хотелось историкам-исследователям.

От проблем распознавания дискуссия неизбежно перешла в русло обсуждения организационных проблем, связанных с созданием цифровых исторических источников. Отмечалась определенная стихийность в этом направлении и такая проблема нашей науки, как отсутствие больших «цифровых» проектов национального охвата и масштаба. Материалом для них могли бы быть массивы таких источников, как метрические книги, разного рода переписи и т.п. Участники круглого стола вспоминали, в частности, такой проект, как Банк (консорциум) исторических данных, появившийся в МГУ в 1990-е гг., но не получивший дальнейшего развития в связи с отсутствием финансирования. Подводя некоторый итог этого витка дискуссии, И.М. Гарскова отметила, что оцифровку, пусть и без распознавания, надо активно продолжать с надеждой на решение проблем распознавания, но ждать этого придется еще достаточно долго.

Круглый стол продолжался свыше трех часов. Значение его для сообщества исследователей, применяющих математические методы и компьютерные технологии в своих исследованиях, трудно переоценить. Первый обмен мнениями в области соотношения исторической информатики и науки о данных показал, что в нашей исследовательской области имеются серьезные наработки в части как накопления данных, так и их обработки. Еще раз подтвердилось, что все более насущной задачей становится разработка такого направления, как «цифровое историческое источниковедение». Предстоящая конференция АИК, где данным будет уделено особое внимание, может стать важным событием в развитии исторической информатики в современных реалиях.

References

1. Borodkin L.I. Metody iskusstvennogo intellekta: novye gorizonty istoricheskogo poznaniya // Informatsionnyi Byulleten' Komissii po primeneniyu matematicheskikh metodov i EVM v istoricheskikh issledovaniyakh pri otdelenii istorii RAN. 1992. № 5. S. 4-16.
2. Borodkin L.I. Stanovlenie istoricheskoi informatiki v Rossii: pervye shagi istorikov na puti «mikrokomp'yuternoi revolyutsii» // Istoricheskaya informatika. – 2017. – №3. – S. 155-172. DOI: 10.7256/2585-7797.2017.3.24709 URL: https://nbpublish.com/library_read_article.php?id=24709
3. Carvalho J. Expert Systems and Community Reconstruction Studies // History and Computing II / P. Denley, S. Fodelvik, and Ch. Harvey (eds.). Manchester University Press, 1989.-290 p.
4. Borodkin L.I., Koval'chenko I.D. Dva puti burzhuaznoi agrarnoi evolyutsii v Evropeiskoi Rossii (Opyt mnogomernogo tipologicheskogo analiza) // Agrarnaya evolyutsiya Rossii i SShA v XIX-nachale XX v. M., 1991. S.18-47.
5. Tsai, Richard Tzong-Han; Lu, Yi-Hsuan; Wang, Yu-Chun; Fan, I-Chun. Event Extraction on Classical Chinese Historical Texts: A Case Study of Extracting Tributary Events from the Ming Shilu. [Elektronnyi resurs.] URL: https://dev.clariah.nl/files/dh2019/boa/0987.html. Data obrashcheniya – 20.07.2020.
6. Ares Oliveira, Sofia; di Lenardo, Isabella; Tourenc, Bastien; Kaplan, Frederic. A deep learning approach to Cadastral Computing. [Elektronnyi resurs.] URL: https://dev.clariah.nl/files/dh2019/boa/0691.html. Data obrashcheniya – 20.07.2020.
7. Smeenk, Kim; Bilgin, Aysenur; Klaver, Tom; Tjong Kim Sang, Erik; Hollink, Laura; van Ossenbruggen, Jacco; Harbers, Frank; Broersma, Marcel. Grounding Paradigmatic Shifts In Newspaper Reporting In Big Data. Analysing Journalism History By Using Transparent Automatic Genre Classification. [Elektronnyi resurs.] URL: https://dev.clariah.nl/files/dh2019/boa/0774.html. Data obrashcheniya – 20.07.2020.
8. Heße, Sascha. Clean Separation Of Overlapping Components In Line Segmentation Of Historic Handwritten Documents. [Elektronnyi resurs.] URL: http://staticweb.hum.uu.nl/dh2019/dh2019.adho.org/papers/index.html. Data obrashcheniya – 20.07.2020.
9. Computational intelligence in archaeology / Juan A. Barcelo, editor. Information Science Reference, London, 2009.-437 p.
10. Jorge Lazo. Can Deep Learning help us to rediscover the past? An application of Deep Learning to Archaeology. [Elektronnyi resurs.] URL: https://towardsdatascience.com/can-deep-learning-help-us-to-rediscover-the-past-5fa940c4e6c3. Data obrashcheniya – 20.07.2020.
11. H.A. Orgengo, F.C. Conesa, A. Garcia-Molsosa, A. Lobo, A.S. Green, M. Madella and C.A. Petrie. Automated detection of archaeological mounds using machine-learning classification of multisensor and multitemporal satellite data // Proceedings of the National Academy of Sciences, July 2020, 202005583; DOI: https://doi.org/10.1073/pnas.2005583117.
12. Artificial Intelligence for Cultural Heritage. Edited by Luciana Bordoni, Francesco Mele and Antonio Sorgente. Cambridge, 2016.-148 p.
13. Knyaz, V.A., Vygolov, O.V., Kniaz, V.V., Vizilter, Y.V., Gorbatsevich, V.S., Luhmann, T. and Conen, N. Deep learning of convolutional auto-encoder for image matching and 3D object reconstruction in the infrared range. Proceedings – 2017 IEEE International Conference on Computer Vision Workshops, ICCVW 2017. P. 2155-2164.
14. Chambers S., Coudyzer E., Kestemont V. Gaining INSIGHT: exploring the application of Artificial Intelligence to the automatic classification of cultural heritage objects. DH Benelux 2019: Short Paper Abstract. [Elektronnyi resurs.] URL: http://2019.dhbenelux.org/wp-content/uploads/sites/13/2019/08/DH_Benelux_2019_paper_72.pdf. Data obrashcheniya – 20.07.2020.
15. The Proceedings of the AI*CH 2017. The 11th workshop on Artiﬁcial Intelligence for Cultural Heritage. Workshop co-located with AI*IA 2017 Bari, Italy, November 14, 2017. [Elektronnyi resurs.] URL: http://smcm.isasi.cnr.it/AIxCH2017. Data obrashcheniya – 20.07.2020.
16. C. Bassett, D.M. Berry, M.B. Fazi, J. Pay, B. Roberts. Critical Digital Humanities and Machine-Learning. Digital Humanities 2017. Montreal, Canada, August 8-11, 2017. [Elektronnyi resurs.] URL: https://dh2017.adho.org/abstracts/509/509.pdf. Data obrashcheniya – 20.07.2020.
17. Borodkin L.I. — Istorik i mir (bol'shikh) dannykh: vyzovy tsifrovogo povorota // Istoricheskaya informatika. – 2019. – № 3. – S. 14-30. DOI: 10.7256/2585-7797.2019.3.31383 URL: https://nbpublish.com/library_read_article.php?id=3138

Journals

Books

Historical Information Science in the Context of Data Science (Round Table Materials)