Рус Eng Cn Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Historical informatics
Reference:

Record Linkage in the Historical Population Register of Norway

Thorvaldsen Gunnar

Doctor of History

Professor at Tromsoand UrFU

620142, Russia, Sverdlovskaya oblast', g. Ekaterinburg, ul. Chapaeva, 17, of. 48

zabolotnykh@mail.com
Other publications by this author
 

 

DOI:

10.7256/2585-7797.2019.2.30126

Received:

26-06-2019


Published:

17-07-2019


Abstract: The historical population register of Norway contains data on the country's population from 1800 to 1964. Information on the country's population from 1964 to the present is collected in the Central Population Register. The historical register consists of these metric books and civil records, filling in the gaps between population censuses conducted every ten years. In 1801 and, beginning in 1865, these censuses were nominative, that is, contained the names of people. This article is devoted to the problems of linking census records and metric books (record linkage) from 1800 to 1920. Special attention is paid to the identification of individuals and the difficulties of linking records. The main problem is to identify a person by the records belonging to different years, in terms of a significant number of namesakes and variations in the fixation of their names, as well as age. The creation of stable identifiers for individuals and the procedure for linking records from various sources required the development of new software combining automatic and manual methods. Analysis of local databases allows us to hope for successful linking from 2/3 to 90% of records for various periods and regions of the country. The historical register of Norway is unique in its coverage of the territory and the variety of historical sources related to it.


Keywords:

record linkage, longitudinal research data, microdata, history, health study, Norway, sensus, church records, register, method

This article written in Russian. You can find original text of the article here .

Регистры населения и их использование в исследованиях

Центральный регистр (Central Population Register, далее – Центральный регистр) включает сведения о населении современной Норвегии с 1964 г. до настоящего времени и основан на переписи 1960 г. и местных «карточных» регистрах населения, которые начали создавать в отдельных муниципалитетах с 1906 г., но общенационального уровня этот процесс достиг лишь в 1946 г. К сожалению, эти карточные регистры непригодны для компьютерной обработки из-за большого объема и децентрализованного хранения [1]. Исторический регистр населения (Historical Population Register, далее – Исторический регистр) создан путем связывания данных переписей и метрических книг с 1800 г. до 1964 г. Центр исторической документации Университета г. Тромсё, Национальный архив Норвегии и специалисты по генеалогии транскрибировали почти половину этих источников, оставшиеся материалы переданы на ручное транскрибирование в одну из фирм Китая или полуавтоматическое транскрибирование в Норвегии. Микроданные переписей, записей актов гражданского состояния и регистров населения позволяют решать ряд исследовательских задач, касающихся социальной мобильности, миграции, рождаемости, брачности и смертности. Наиболее важной сферой, требующей расширения регистров населения в глубь истории, является социальная медицина и исследования в области изучения здоровья населения в XX в. [2]. Так, 17-18 октября 2016 г. в Академии наук в Копенгагене, Дания, состоялась встреча участников Европейской сети исторических выборок населения «Современные данные и здоровье» (https://ehps-net.eu/news/workshop-working-groups-5-and-6).

Изучение населения Крайнего Севера Норвегии и проблема неравенства населения в отношении здоровья

Участники проекта «High North Population Studies» (Изучение населения крайнего севера Норвегии), осуществляемого факультетом медицинских наук Университета Тромсё, предложили исследовать проблему неравенства населения в отношении здоровья. Данные доклада о здоровье населения Норвегии за 2018 г. говорят о том, что социальное неравенство, проявляющееся в продолжительности жизни, возрастает, особенно среди женщин. Более того, в Норвегии это неравенство более значительно, чем в большинстве других европейских стран [3]. Несмотря на рост продолжительности жизни населения, в целом свидетельствующий об улучшении здоровья, его уровень существенно зависит от социально-экономических факторов, таких, как доход, образование и профессия человека. Хотя Норвегия относительно эгалитарна в отношении доходов населения, она оказалась среди стран Европы с самым высоким неравенством по ряду индикаторов, в том числе в отношении смертности на территории Северной Европы. На рисунке 1 показано, как возрастала продолжительность жизни с 1961 г до 2009 г. в группах с начальным, средним и высшим образованием. Другая проблема, решение которой невозможно без привлечения лонгитюдных микроданных, – установление причинно-следственной связи между родом деятельности и здоровьем: приводит ли плохая работа к плохому здоровью, или плохое здоровье приводит к плохой работе? Дальнейшие исследовательские задачи связаны с изучением кластеров населения, обладающего хорошим или плохим здоровьем, в том числе в рамках конкретных семей, кварталов и т.д. Крайне важно получить ответы на главные вопросы: рискуют ли женщины навсегда отстать на пути улучшения здоровья и какие факторы могут объяснить связь между полом, социально-экономическим статусом и, например, сердечно-сосудистыми заболеваниями?

Рисунок 1. Увеличение продолжительности жизни мужчин и женщин (в годах) в 1961-2009 гг. в зависимости от образования (начальное, среднее, высшее). По вертикали – число лет прироста.

С целью дать объяснение феномену социального неравенства населения в отношении здоровья, сотрудники факультета социально-гуманитарных и педагогических наук университета Тромсё начали работу с уникальным информационным ресурсом – Историческим регистром. Он является одной из наиболее разработанных в мире баз лонгитюдных исторических данных об индивидах, и в будущем будет связан с Центральным регистром. Эти базы данных будут дополняться лонгитюдными данными, которые были получены благодаря мониторингу здоровья населения, систематически проводимого в Тромсё, начиная с 1974 г. Всего на настоящий момент было проведено семь обширных медицинских обследований большей части местного населения на предмет выявления болезней сердечно-сосудистой системы. Кроме того, существуют данные национального реестра причин смерти с 1950 г. и регистры по заболеваниям, записи в которых можно связывать, используя идентификационные номера налогоплательщиков (рисунок 2). Гатор (Gator), разработанный исследовательской группой Стейна Роккана, занимавшейся количественными исследованиями в области социологии и политологии на факультете социальных наук, представляет собой массив агрегированных данных, содержащих ценную информацию об особенностях социальной и экономической ситуации на уровне муниципалитетов с 1945 г. до настоящего времени (http://site.uit.no/rokkangruppen/2016/09/30/gator-1945/).

Разделы Исторического регистра, содержащие информацию по XX в., управляются с помощью разработанной в Университете Тромсё программы EUTRO, которая обрабатывает конфиденциальную информацию согласно нормам закона о защите персональных данных. Собранный массив информации даст возможность проводить исследования, направленные на изучение и объяснение продолжительного воздействия всего спектра факторов риска и обстоятельств, приводящих к неравенству населения в отношении здоровья. Объединенные регистры предоставят источниковую базу, содержащую информацию о здоровье нескольких поколений.

Рисунок 2: Регистры, которые можно связывать с Историческим регистром населения Норвегии на уровне индивидов.

Связывание ранних записей

Богатейший потенциал данных по северным территориям Норвегии может быть раскрыт в том случае, если номинативные записи будут связаны друг с другом. Это даст возможность детальнее изучить отдельных людей, семьи и поселения в длительной временной перспективе. Для проведения связывания людей и записей потребовалось разработать новые методики, объединяющие как автоматизированные, так и ручные методы, благодаря чему удалось повысить процент связывания записей и идентифицировать свыше одного миллиона человек из нескольких источников.

Для создания Исторического регистра населения историки и специалисты в области информационных технологий провели связывание записей первичных источников – материалов переписей и церковного учета на местном и региональном уровне. По ряду приходов была проведена традиционная работа по реконструкции семей вручную, после чего этот метод был адаптирован для интерактивного связывания [4]. Однако это трудоемкий процесс, и реконструкция ограничивалась связыванием записей переписей и метрических книг в рамках отдельных приходов.

Первая серьезная попытка полуавтоматического компьютерного связывания записей по 44 приходам за 1801 г. была предпринята Яном Олдерволлом (Jan Oldervoll) из Университета г. Берген и его учениками в 1980 г. [5]. Гуннар Торвальдсен применил автоматизированный метод связывания данных переписей 1865, 1875 и 1900 гг. по провинции Тромсё [6, 7]. База данных по приходу Рендал (Rendalen) 1735-1900 гг. создавалась вручную с помощью метода реконструкции семей в конце 1990-х гг. Ее использование в качестве «золотого стандарта» будет объяснено позже. Специалист в области информационных технологий Ларс Нигаард (Lars Nygaard) разработал систему интерактивного связывания записей, которую использовали применительно к двум приходам в юго-западном пригороде Осло для большей части XIX в. [8]. В дальнейшем этот метод был использован для связывания данных переписей, записей метрических книг, реестров завещаний и других первичных источников при подготовке изданий-справочников по истории норвежских ферм и родов – Busetnadssoge [9]. Историки и краеведы применили это программное обеспечение для создания регистров населения более чем десяти муниципалитетов в XVIII-XX вв.

Источники

Первые метрические книги появились в Норвегии в 1623 г. а с 1680 г. их ведение стало обязательным. Начиная с 1812 г. священники стали заполнять стандартизированные печатные формы с отдельными разделами по событиям жизненного цикла: крещениям, бракосочетаниям, отпеваниям. Хьогсэт [10] выявил недоучет событий в записях XVIII в. (от 10 до 20%), в первую очередь касающихся смерти детей. Это обстоятельство, а также тот факт, что ранние источники не содержат или дают неточную информацию о возрасте, фамилиях замужних женщин, месте жительства и т.д. обусловило решение создавать Исторический регистр населения Норвегии с 1801 г., когда была проведена первая номинативная перепись в стране. Что касается местных регистров населения, то их создание реально и для более ранних периодов в зависимости от наличия и качества источников.

Исторический регистр населения Норвегии может связывать все общедоступные данные о жителях страны и месте их проживания. Он основывается, преимущественно, на записях метрических книг и данных переписей, но может включать и информацию, извлеченную из списков эмигрантов, газетных заметок, тюремных записей, надписей на надгробных плитах и т.д. Специалисты в области генеалогии сфотографировали и транскрибировали тысячи надгробий и дополнили базу данных этой информацией (http://www.disnorge.no/cms/node/3644). Включение в него новых типов источников только улучшает Исторический регистр благодаря увеличению объема данных о людях и поселениях, обеспечению более надежных связей и появлению дополнительной возможности проверки степени достоверности информации источников. Всего за период с 1735 г. до 1964 г. источники содержат сведения о 9,7 миллионах человек и более чем о 37 миллионах событий, зафиксированных в метрических книгах и других источниках. Из них свыше 16 миллионов записей за XIX-XX вв., в том числе сведения из материалов переписей (1801, 1865, 1875, 1891, 1900 и 1910 гг.) и метрических книг, уже транскрибированы, и строятся амбициозные планы транскрибировать записи остальных метрических книг до 1930 г. в течение нескольких последующих лет [11]. В настоящее время идет полуавтоматическое транскрибирование данных переписи 1950 г. и начата аналогичная работа с материалами переписи 1930 г. [12]. Национальный архив Норвегии транскрибировал записи метрических книг за 1801-1815 гг. В целях экономии средств транскрибирование метрических книг, начиная с 1850 г., будет передано специалистам одной из стран с невысоким уровнем жизни. Что касается материалов 1815-1849 гг., то они сохранились лишь частично, и их транскрибирование пока не рассматривается, как не предусмотрено пока и транскрибирование материалов переписи, проведение которой из-за войны было перенесено с 1940 на 1946 г.

Одна из целей создания Исторического регистра населения – выявить связи между динамикой демографических изменений и особенностями развития населенных пунктов и регионов, включая возникновение небольших землевладений, дробление фермерских хозяйств, рост городов и т.д. Место жительства можно связать с несколькими муниципалитетами в случае изменения их административных границ. Отправные точки – это регистры, составленные в связи с уплатой фермерскими хозяйствами налогов в 1838, 1886 и 1950 гг. С ними можно связать данные переписей по названиям фермерских хозяйств и адресам. Кадастр от 1838 г. доступен в виде машиночитаемого текста с возможностью поиска после обработки с помощью оптического распознавания символов (http://www.dokpro.uio.no/cgi-bin/stad/matr50, http://www.rhd.uit.no/matrikkel/matrikkel1838.aspx and http://www.rhd.uit.no/indexeng.html). В ходе самостоятельного проекта по определению исторических административных границ Норвегии «Historical administrative boundaries» было установлено, что до 90% фермерских хозяйств можно связать с уникальными титульными номерами. Динамический фермерский регистр, разработанный экономистом Коре Бэвре (Kåre Bævre) в рамках этого проекта, можно связать с Историческим регистром населения. В этом случае будет необходимо провести дополнительную работу по кодированию из-за изменения системы регистрации в городах: перехода от серийных номеров собственности к названиям улиц и номерам домов. Историк Арне Солли (Arne Solli) из Бергенского университета проделал впечатляющую работу по картографированию, связав индивидуальную информацию о жителях Бергена и адреса их проживания в 1696-1906 гг. в рамках проекта BerGIS, включив впоследствии в эту ГИС и сведения о других городах (http://bergis.uib.no/om/index.php).

Обработка данных и структура базы данных

Несколько генеалогических баз данных в настоящее время используют программное обеспечение MediaWiki для связывания и объединения записей через Интернет, например, WeRelate.org. Они просто импортируют родословные, подготовленные генеалогами (файлы Gedcom), что создает проблему качества баз данных и дублирования данных [13]. Это, в свою очередь, ставит под сомнение все статистические расчеты, проведенные на основе базы данных сомнительного качества. Масштаб Исторического регистра населения предполагает возможность просмотра источника, транскрибирования и сохранения сведений, что позволит избежать дублирования данных. Зарегистрированные участники могут интерактивно вносить свой вклад в расширение и совершенствование общей базы данных, на основе которой формируется Исторический регистр. Например, раздел электронной энциклопедии по местной истории (Local History Wiki) демонстрирует, как различные участники делятся знаниями на основе своего конкретного опыта (https://lokalhistoriewiki.no/). Темы включают данные об их собственных семьях и месте жительства, географических территориях, профессиях, этнических группах, мигрантах и других людях, чьи имена попали в исторические источники. Следует признать, однако, что пока волонтеры добавили и уточнили лишь незначительную часть связей, установленных вручную между записями Исторического регистра.

Транскрибирование записей источников – имен, дат рождений и других характеристик ведется по принципу «слово в слово». В разных источниках данные об одном и том же индивиде, например, в написании фамилии, точного возраста и т.д. довольно часто отличаются. Учитывая это, мы выработали следующие базовые правила приоритета при определении степени достоверности сведений в источниках:

1. Преимущество предоставляется сведениям, которые выбраны исследователем в процессе установления связей между записями вручную.

2. При сравнении данных из метрических книг преимущество отдается ранним по времени записям.

3. При анализе данных переписей и других источников приоритет отдается, наоборот, поздним по времени сведениям.

В переписях и других источниках качество регистрации сведений улучшалось с течением времени. Что касается метрических книг, то самым ранним сведением о человеке является запись о крещении, где точно указана дата рождения. В дальнейшем при регистрации возраста могли появляться неточности, поскольку его, как правило, называли приблизительно, округляя. Что касается места рождения, то здесь могли быть неточности в тех случаях, когда родители крестили детей в церкви соседнего прихода, например, из-за того, что она была ближе.

Всем записям, внесенным в Исторический регистр, присвоены уникальные идентификаторы для установления связей между ними внутри самого Регистра и за его пределами. Современные идентификационные номера, в том числе номера социального страхования, основаны на сведениях о дате рождения, поле и т. д. Однако в прошлом дата рождения не всегда была известна и поэтому не может быть использована в основе создания универсального идентификатора. Исходя из этого, Национальный архив Норвегии выработал систему присвоения именных идентификаторов записям об индивидах PKID и всем видам собственности EKID, сведения о которых внесены в Исторический регистр. В обоих случаях идентификатор состоит из набора букв и цифр, в которых помимо индивидуального номера человека или владения закодирована информация о том, из какого источника получены сведения (перепись, метрическая книга и т. д.). Таким образом идентификатор позволяет моментально увидеть связь между человеком, событием, местом и конкретным историческим источником, из которого эта информация получена.

Исторический регистр населения использует персональный идентификатор (PID) для каждого индивида, который определяется на основе сопоставления сведений из нескольких связанных между собой записей о человеке и событиях. При этом система Регистра дает возможность корректировать результаты связывания записей. Например, записи, транскрибированные из двух источников Aи B c идентификаторами PKID, были предварительно связаны с человеком, обозначенным идентификатором PID A, так как запись источника A обладает приоритетом (большей степенью достоверности), согласно правилам, перечисленным выше. Однако, если спустя время, в базу была внесена новая запись из альтернативного источника с идентификатором PKID C, которая связана с записью PKID B, но не допускает возможности связи С и А (человек умер до наступления события A), то установленная ранее связь между записями источников A и B может быть удалена. Вместо этого, после связывания записей PKID B и PKID C, человек, вовлеченный в эти события получает идентификатор PID B. При этом в отдельной таблице будет приведена вся история установления связей между записями, чтобы у исследователя была возможность увидеть неудачные попытки связывания, и как идентификационные номера людей были изменены вследствие уточнения установленных связей.

В Историческом регистре мы используем следующую систему приоритетов для определения идентификационного номера индивида:

1) сведения из переписи 1910 г.;

2) сведения из протоколов отпевания до 1910 г.;

3) сведения из протоколов о рождениях после 1910 г.;

4) сведения из списков эмигрантов с 1870 до 1930 г.;

5) сведения из списков иммигрантов после 1910 г.

6) более ранние записи приходского учета особенно о крещении, имеют приоритет над более поздними;

7) среди переписей населения (за исключением 1910 г.) и других материалов учета населения приоритет отдается данным из более поздних записей.

Первые три типа источников относительно хорошего качества и исключают вероятность перекрестной информации при определении идентификационного номера. Перепись 1910 г. станет ключевой в процессе соединения Исторического (открытого) регистра с Центральным регистром, данные которого, начиная с 1920 г., пока закрыты в связи с законом о защите персональных данных. Через пару лет все записи, транскрибированные из переписи 1920 г. будут внесены в Исторический регистр населения и окажутся в открытом доступе.

Результаты автоматического связывания записей, которое описано в следующей части статьи, будут скопированы в виде связанных групп идентификаторов PKID с возможностью последующего интерактивного исправления. Для этого необходима привязка к конкретному источнику и системная идентификация индивидов, что и содержится в каждом PKID в полном объеме. Таким образом, как только новый источник включается в Исторический регистр населения с помощью специального программного обеспечения, устанавливаются прямые связи с другими записями. В отдельных таблицах представлена информация о критериях связывания и дана оценка надежности этих новых связей.

Принципы связывания записей

Исторический регистр населения основан преимущественно на данных переписей и метрических книг и допускает только однократное включение сведений об индивидах. Однако в самих источниках может быть несколько дублирующих записей об одном человеке, что вызвано системой регистрации де-юре и де-факто во время проведения переписей населения. Сведения о смерти человека могли быть также записаны в двух разных протоколах, если смерть заставала его вдали от места постоянного проживания. Таких дублирований не так много, и их легко можно исключить из регистра, в отличие от множества дублирующих записей, которые появляются в результате механического объединения баз данных, подготовленных генеалогами.

Использование сведений о супругах и их родственниках повышает вероятность успешного связывания записей, однако, приходские регистры и переписи содержат разные данные о родственных связях между людьми. Переписчик регистрировал родство на уровне семьи и домовладения, и программное обеспечение маркирует их отчетливо (https://international.ipums.org/international-action/variables/group?id=cons). Информация о родстве, содержащаяся в приходских регистрах, зависит от типа зарегистрированного события. Брачные записи информируют только о вступающих в брак, и лишь с 1820 г. в них стали заносить данные об отцах невесты и жениха. На основании записей о крещении можно установить связи между ребенком и его родителями, в записях о погребениях нет информации о родственниках умершего, что усложняет процесс связывания записей. С 1877 г. по всей стране, а в отдельных приходах и раньше, священники стали вносить сведения о родителях умерших детей и овдовевших супругах в записях о погребениях. Записи об умерших, сделанные ранее 1877 г., содержат, помимо причины смерти, информацию о статусе, фамилии и имени, возрасте и адресе умершего, что зачастую недостаточно для связывания такой записи с другими. Информация о возрасте может отсутствовать или быть ненадежной в ранней части Исторического регистра, а дату рождения стали заносить в записи о крещениях лишь в XIX в. Что касается записей о браке и смерти, то тщательная регистрация дат рождения в них началась лишь с 1877 г. В переписные листы вопрос о дате рождения был введен позднее, причем для детей младше 2-х лет – в 1891 г., а для всех остальных – лишь в 1910 г. Таким образом, в переписях 1891 и 1900 гг. даты рождения людей старше двух лет не указаны. Если информация об имени, фамилии и месте жительства человека, зарегистрированного в приходском регистре, совпадает с адресом в переписи, то вероятность установления правильной связи между записями в двух источниках достаточно высока, особенно для начала XIX в.

Если не удается сразу установить связь ребенка с родителями из-за того, что в источниках более одной пары подходит на эту роль, остается надежда, что это может получиться при последующем включении в Регистр дополнительной информации. Для этого записи потенциальных родителей и детей обозначены в качестве кандидатов на связывание. Если вручную попытаться связать записи об индивидах, родство которых сомнительно, то программа немедленно предупредит об имеющемся противоречии.

Несмотря на фрагментарность записей о миграциях в метрических книгах, национальный масштаб проекта позволяет отследить передвижения внутри страны. Такие сведения содержатся в метриках по месту рождения человека и его новому месту жительства; кроме того, существуют отдельные списки переселенцев. В Историческом регистре можно найти информацию о предках норвежцев, живших за границей, поскольку в него были включены сведения из списков эмигрантов, начиная с 1870 г. Тех, кто возвратился на родину, выявить сложнее, хотя сведения о многих попали в переписи 1910 г. и 1920 г. Со времени Первой мировой войны учет иммигрантов стал гораздо более точным [14].

В основе автоматического и ручного связывания записей в Историческом регистре населения лежат следующие принципы:

1. Исторический регистр населения должен строиться на доступных оригинальных записях источника. Обязательным условием является четкая привязка записей Исторического регистра к соответствующему источнику.

2. Необходимо соблюдать принцип открытости и прозрачности. У пользователя должна быть возможность увидеть, кто сформировал связь между записями и какие критерии были при этом применены. Связи, установленные между записями вручную, в этом смысле будут менее точными.

3. Главная цель – высокий процент и высокое качество связывания записей в Регистр: пользователям предоставляется возможность оставлять комментарии, вносить исправления в открытой части Исторического регистра населения (до 1920 г.).

4. Все установленные между записями связи сопровождаются маркерами качества и правил связывания; репрезентативность связанных выборок можно оценить, сравнив с населением на основе данных переписей, проводившихся каждые 10 лет начиная с 1801 г. Это позволит определить погрешность расчетов, проведенных на основе анализа связанной части населения.

5. Процесс связывания записей в Историческом регистре будет развиваться за счет поиска новых возможных связей между записями, сформированных на основе изменяемых характеристик индивида, таких как профессия и место жительства. Такие связи программа также отметит специальными маркерами.

Вопрос об использовании переменных характеристик для связывания записей является дискуссионным. Некоторые исследователи рекомендуют избегать использования переменных во времени характеристик, поскольку это может привести к нерепрезентативной выборке связанных записей [15]. Например, если применять для связывания информацию о профессии, то представители наиболее распространённых профессией попадут в группу с наименьшим количеством установленных связей между записями, поскольку таких людей сложнее идентифицировать. Исследования, посвященные изучению социальной структуры, в таком случае будут неточны из-за статистического искажения. То же самое происходит и с исследованиями миграции, проведенных на основе связанных записей по адресу проживания. На наш взгляд, решить проблему связывания записей с использованием переменных во времени характеристик можно несколькими способами. Поскольку метод связывания сопровождается маркировкой, исследователь имеет возможность исключить записи, связанные с использованием адресов или профессий, если это вступает в противоречие с основной исследовательской задачей. Однако, если исследование касается поиска родословных для изучения наследственных болезней, применение всех связанных записей сделает исходный материал более репрезентативным. Кроме того, избирательность уже заложена в характеристики, используемые при связывании записей. Например, в Норвегии фермеры-землевладельцы имели фамилии, отличавшиеся от фамилий батраков, таким образом очевидно, что результат связывания записей зависит от типа фамилии. А в XX в. традиция образовывать фамилию от имени отца уступила общесемейной фамилии. Женщины, вступавшие в брак, вообще брали фамилию мужа. Таким образом, фамилия тоже является характеристикой переменной во времени. Поэтому те, кто рекомендует придерживаться не изменяющихся во времени данных, теряют возможность использовать информацию о семейных отношениях для связывания записей. Еще одним аргументом служит то, что волонтеры-генеалоги могут связать записи о двух неродных людях на основе общего адреса и не отметить этот факт специальным маркером, как это делает в аналогичном случае компьютерная программа. Наконец, имея доступ к репрезентативным агрегированным данным или микроданным переписей, всегда можно оценить репрезентативность выборки связанных данных по основным переменным характеристикам, таким, например, как профессия.

Исторический регистр населения Норвегии отличается от Национального исторического регистра населения Исландии, deCode Genetics, который является закрытым, и пользователи имеют доступ только к своей родословной. Он также непрозрачен в отношении ссылок на источники и критериев, использованных для связывания записей. Исторические лонгитюдные базы данных в Швеции (the Demographic Database CEDAR, The Stockholm Archive Roteman, the Scanian Economic Demographic Database) и Нидерландах (Historical Sample of the Netherlands) обладают лучшей базой для связывания, но пока охватывают лишь часть населения этих стран [16, 17].

В Историческом регистре населения простое связывание записей отличается от установления пар путем связывания записей. Тогда как обычное связывание указывает, что один и тот же человек имеется в виду, по крайней мере, в двух различных источниках: установления пар путем связывания записей информирует о родственных связях людей при конкретном событии, например, мать и ребенок в записи о крещении или списке домовладений в переписи. Тем не менее, связывание и образование пар – процессы взаимообусловленные, поскольку информацию о семье можно использовать для связывания индивидов, и могут потребоваться сведения из нескольких источников для принятия решения о том, кто и кому действительно является родственником. Родственные связи внутри домовладения помечаются значками-маркерами по правилам, определённым системой IPUMS для данных переписей. Как отмечено выше, программное обеспечение обогатило базу данных Исторического регистра населения, используя алгоритмы, разработанные коллегами из Миннесотского центра изучения населения (Minnesota Population Center) для автоматического кодирования структуры семьи путем создания переменных, основанных на информации о положении человека в семье, поле, возрасте и фамилии. Эти персональные характеристики можно анализировать вместе с другими сформированными и закодированными переменными [18]. Точность этих характеристик можно улучшить за счет привлечения информации о родственных связях отец – ребёнок, содержащейся в отчествах.

Качество связывания, принятие и отклонение

Качество всех связей, установленных между записями Регистра, маркируется специальным значком по шкале от 0 до 8, в зависимости от уникальности и одинаковости характеристик человека или пары в одном или нескольких источниках. Этими характеристиками являются имя, фамилия, пол, возраст, дата и место рождения. Место жительства и профессия могут быть использованы дополнительно для подтверждения правильности установленной связи: в этом случае маркировка использования переменных характеристик специальным значком обязательна. Обнаружение информации о человеке в более чем одном источнике усиливает точность полученных результатов, которые оцениваются следующим образом:

8: надежная связь, установленная на основе характеристик, указанных в пункте 7, + идентификация индивида в качестве члена семьи;

7: связь, установленная на основе совпадения даты рождения или года, а также совпадающих или схожих полного имени и места рождения;

6: связь, установленная на основе совпадения или схожести фамилии супругов и мест рождения;

5: связь, установленная на основе совпадения или схожести полного имени, возраста и места рождения;

4: связь, установленная на основе совпадения или схожести полного имени, возраста и места рождения, но необходим адрес для уточнения;

3: связь, установленная на основе совпадения или схожести полного имени, возраста и места рождения, но необходимо использовать сведения о профессии для уточнения;

2: вероятная связь, которая может быть установлена, но требуется дополнительная информация для исключения возможной ошибки;

1: связь теоретически допустима, но есть основания для сомнений, которые должны быть указаны.

Рисунок 3. Оценка результатов связывания записей датских источников XIX в. Связанные записи об индивидах (сплошная линия), о парах (пунктирная линия): ошибочные, но принятые («falsepositives») и правильные, но отвергнутые («correctnegatives»). Источники первой половины XIX в. (кривая II) и второй половины XIX в. (кривая I).

На рисунке 3 показаны результаты установления связей записей в датских источниках. При этом решались две основные задачи: связать максимальное количество записей об индивидах и избежать связывания записей, не имеющих отношение друг к другу [19]. Идеал – точка отсчета 0, где все связанные записи установлены правильно и не пропущена ни одна правильная связь. Это практически недостижимо из-за неточных сведений в исторических иасточниках и недостатка информации, особенно о мигрантах. Проблема в том, что при ужесточении правил связывания записей об индивидах с целью снижения риска ошибки, можно легко потерять те, что подходят для связывания – «correct negatives» – правильных, но отвергнутых (вертикальная ось). И наоборот, если применить менее жесткие правила связывания, то возрастает вероятность принятия неверно связанных записей – «false positives» – ошибочных, но принятых (горизонтальная ось).

Йохансен сделал заключение о том, что, приемлемые результаты связывания записей для источников второй половины XIX в. (кривая I) лежат в промежутке между точками A – допустимое число неверно установленных связей и B – допустимое число правильных, но отвергнутых связей. Результаты связывания записей первой половины XIX в. (кривая II) Йохансен посчитал неприемлемыми из-за того, что программа ввела слишком много ложных связей в базу данных и упустила слишком много правильных связей. В контексте работы с Историческим регистром населения Норвегии важно то, что датские и норвежские первичные материалы схожи. То есть успешное автоматическое связывание записей второй половины XIX в. вполне возможно с достижением результатов аналогичных датским, что отражены на кривой I рисунка 3. Что касается записей, транскрибированных из более ранних источников, то их нужно связывать вручную с использованием дополнительной информации. К счастью, за последнее десятилетие были разработали методики, позволяющие это сделать, по крайней мере, для значительной части первичных данных.

Во-первых, есть возможность сопоставить варианты написания одной и той же фамилии, используя стандартизованные списки имен из переписей XIX в., подготовленные специалистами в области ономастики, и алгоритмы для сравнения связей [20]. Во-вторых, разработано программное обеспечение, которое не только связывает записи об индивидах, но рассматривает при этом возможность связывания записей о семейных парах и группах родственников. Обе методики особенно ценны при работе с периодом, когда вся информация, включая данные о фамилии и возрасте, была не всегда точной и зачастую отсутствовала в источниках. Используя стандартизацию имен и дополнительную информацию о семейных отношениях, можно провести связывание записей первой половины XIX в. с результатом, приближающимся к тому, что показан на кривой I рисунка 3. Анализ данных переписи 1801 г. показывает, что около 80% женщин и 85% мужчин проживали, по меньшей мере, с еще одним членом семьи. Если хотя бы часть этих отношений была стабильна во времени, то возрастает возможность связывания записей с применением этой дополнительной информации. Это было выявлено в ходе успешной работы сотрудников Норвежского центра исторической документации по связыванию записей об 1 миллионе человек из нескольких источников, многие из которых относились к началу XIX в.

Улучшение качества установленных связей между записями в Историческом регистре может происходить за счет связывания их вручную на следующем этапе. В процессе ручного связывания записей применяются те же требования: маркировка надежности и ее обоснование для каждой установленной связи. Таким образом, исследователи могут оценить степень надежности связи записей и выбрать, каким связям можно доверять при проведении каждого конкретного исследования. Например, историк, изучающий миграцию, может решить исключить из массива данных любые связи записей, полученные на основе только адреса. Преимущество автоматического связывания записей в том, что информация неотделима от алгоритмов. Правила, на которых строится программное обеспечение, можно представить в виде таблицы базы данных, и ссылки на эту таблицу могут быть переменной в связанном массиве данных. Это повышает доверие к связям, особенно если приходится использовать данные, связанные кем-то другим. Проблему создает то, что некоторые решения при установлении связей между записями принимаются на основе личного знания человека о прозвищах, использовавшихся в семье вместо официальных имен, о том, кто из предков проживал совместно, о соседних фермах, которые брались в аренду и т. д. На данный момент оцифрована лишь незначительная часть списков продаваемой собственности, протоколов завещаний и других аналогичных документов, активно использованных генеалогами при составлении родословных. Все это богатство информации они сейчас активно используют в процессе волонтерского связывания записей в интернете.

Привлечение специалистов по генеалогии и местных историков-волонтеров особенно необходимо для связывания материалов самого раннего периода Исторического регистра с разнородными, плохо сопоставимыми источниками с небольшим набором переменных характеристик и отсутствующими данными. Интерактивная интернет-система позволяет зарегистрированному пользователю провести поиск записей о человеке по имени, возрасту, дате и месту рождения, профессии и месту проживания в одном или нескольких источниках за конкретный период времени. Пользователь может проверить какие записи были связаны автоматически и при необходимости скорректировать их или добавить к ним новые на основе своего личного знания о конкретном человеке из родословной, газетных заметок, надписей на надгробных плитах и т.д. Эта часть Исторического регистра размещена в открытом доступе, и все владеющие норвежским языком могут принять участие в установлении связей между записями вручную (http://histreg.no/).

Программное обеспечение для связывания записей

Существует программное обеспечение FEBRL (Freely Extendable Biomedical Record Linkage), разработанное специально для этих целей Питером Кристеном (Peter Christen), который является лидером в области информационных технологий для связывания записей [21]. Минессотский центр населения использовал FEBRL для связывания данных переписи XIX в., при этом оказалось, что результат связывания записей из норвежских источников лучше, чем из американских. Это можно объяснить тем, что норвежские записи содержат информацию о месте рождения человека на уровне прихода, а американские – на уровне государства. В любом случае, результаты связывания записей были неудовлетворительными – всего 20-30% населения. Одной из причин этого является сложность связывания записей о замужних женщинах, что серьезно снижает репрезентативность выборки связанных записей (https://international.ipums.org/international/linked_data.shtml). Кроме того, серьезный недостаток программного обеспечения FEBRL – его сложный пользовательский интерфейс, который требует применения суперкомпьютера даже для решения не очень сложных задач. Эти причины побудили Центр исторической документации Арктического университета Норвегии разработать специальное программное обеспечение c системой управления базами данных Oracle для связывания записей из демографических и медицинских источников при работе над проектом по изучению социальных и исторических факторов неравенства населения по уровню здоровья и продолжительности жизни. Это программное обеспечение реализовано в PL/SQL – языке программирования сценариев для баз данных Oracle. Например, фамилии эффективно сравниваются в реальном времени со встроенным алгоритмом сравнения строк Джаро-Винклера, ориентированным на уровни схожести 0,8 или 0,9.

Результаты автоматического связывания записей 1900-1910 гг.

В материалах переписи Норвегии 1910 г. содержится информация о 1.844.615 индивидах, родившихся до 1901 г., и на данном этапе 953.495 из них (всего 52%) уже удалось связать с материалами переписи 1900 г. Материалы переписи 1910 г. содержат информацию о датах рождения почти всех индивидов, при этом около 90% из них абсолютно совпадают с данными переписи 1900 г. Значительная часть записей совпадает частично (верны сведения о дне, или месяце, или годе). К сожалению, материалы переписи 1900 г. содержат информацию только о датах рождения детей до двух лет, что естественно увеличило показатели успешного связывания записей о семьях с такими детьми. Что касается людей с распространенными именами и фамилиями, то у многих совпадают и другие персональные данные, в том числе год и место рождения, что не дает возможность связать записи о них однозначно. Это характерно для жителей крупных городов, однако, аналогичные примеры можно найти и в небольших приходах. Например, в Улленсакере (местность, где сейчас располагается аэропорт г. Осло), небольшом приходе с населением 6000 человек, у двух мужчин по имени Оле в 1851 г. родилось по сыну, каждого из которых тоже назвали Оле. В результате их полные имена оказались совершенно одинаковыми – Оле Олсен (Оле, сын Оле). Спустя годы оба Оле Олсона переехали в Осло, и были зарегистрированы там во время переписей 1875 и 1900 гг. К счастью, один из них числился заключенным в материалах переписи 1900 г., и благодаря сведениям тюремного архива удалось выяснить, кто есть кто.

В области Тромс по переписи 1910 г. было зарегистрировано 59771 человек, которые родились до 1901 г., из них записи о 46531 человеке (т.е. 78%) удалось связать с материалами переписи 1900 г., что значительно выше показателей успешности связывания записей по стране. Это объясняется тем, что помимо материалов переписей была использована дополнительно информация из приходских регистров области Тромс, которые содержат сведения о месте рождения, что позволило идентифицировать людей с одинаковыми персональными данными [13]. Таким образом, из 69.411 записей о крещениях в приходских регистрах области Тромс в 1801-1910 гг. программа связала записи о 52.830 персонах (или 76% от всего числа) с одним или несколькими событиями. Информация о супругах и отцах жениха и невесты в записях о заключении брака также очень ценна; а сведения записей о погребениях позволяют исключить тех, кто умер до проведения переписи.

В приходе Ленвик, расположенном к югу от г. Тромсё, согласно переписи 1910 г. проживало 5619 человек, сведения об 4271 человеке (76% всего населения) удалось связать с записями о крещениях. Несколько более низкое соотношение по приходу в сравнении с областью объясняется невозможностью учесть тех, кто переселился в соседние приходы.

Опыт компьютерного связывания записей: приход Ленвик и его окрестности

Использованные программы позволили установить связи между записями переписи 1801 г. и приходских протоколов о крещениях, бракосочетаниях, погребениях северной части Норвегии [22]. На рисунке 4 показаны результаты связывания записей о мужчинах, ставших отцами в 1799-1815 гг. в приходе Ленвик. Для связывания данных о крещении использовалась информация об отце и матери. В среднем в приходе в год рождалось по 41 ребенку, однако крайние числа составляли от 16 крещений в 1811 г., до 65 в 1806 г.

Рисунок 4. Результаты связей записей об отцах в приходе Ленвик по данным переписи 1801 г., протоколам крещений, бракосочетаний и погребений в 1799-1815 гг.

Стабильность результата при автоматическом связывании записей по сведениям из документов о крещениях – около 4 записей, позволяет говорить о его достоверности. В записях о крещении отец непосредственно связан с ребенком и его матерью, что дает возможность проследить пару от рождения одного ребенка до рождения другого. Приблизительно две трети записей о родителях, указанных в записях о крещениях детей, были связаны с записями о людях, вступивших в брак, и это также оказалось стабильным результатом на протяжении рассматриваемого времени. Священники точно записывали имена жениха и невесты в свадебный протокол, копируя их из протоколов о рождениях и конфирмациях, поэтому они полностью совпадали. Поскольку материалы переписи содержат сведения о населении Ленвика по состоянию на 1801 г., то и наиболее высокий результат связывания данных из приходских протоколов с материалами переписи 1801 г. приходится на ближайшие к ней годы.

Связывание сведений о взрослых людях из протоколов о погребениях наименее успешное. Как правило, в них регистрировались только имя и фамилия покойного, что не всегда достаточно для идентификации человека. Лишь с 1820 г. в протоколы о погребениях стали заносить информацию о возрасте, но до масштабного пересмотра церковного регистра, предпринятого в 1877 г. и дающего большее количество данных для связывания, автоматическое и полуавтоматическое связывание имеют очевидные ограничения. Приблизительно 40% всех записей из протоколов о погребениях связать не удалось, и в основном это записи о пожилых людях.

Что касается записей о смерти детей, то в них часто содержится информация о родителях. Поэтому результаты связывания записей на основе протоколов об умерших на рисунке 4, в большинстве случаев представляют собой связь, установленную на основе записи об отце ребенка из протоколов о его крещении и смерти. Таким образом удалось связать записи о половине детей, умерших в возрасте до 2-х лет, в протоколах о крещениях и смертях. Естественно, на высокий показатель успешности связывания записей такого рода влияет высокая рождаемость и высокая детская смертность, характерные для этого периода [23].

Материалы переписей 1865, 1875 и 1900 гг. по области Тромс были связаны с помощью полуавтоматических методик, при этом треть жителей не была идентифицирована [6]. Таким образом, значительный объем записей необходимо связывать вручную, что, к сожалению, является процессом медленным. Алгоритмы связывания записей переписей 1865, 1875 и 1900 гг. по приходам Молсэльв, Барду и Балсфьорд, в меньшей степени использовали информацию о родстве индивидов, как это было в случае с приходом Ленвик, описанном выше. По этим трем приходам результаты связывания анализировались с точки зрения того, какие персональные данные человека способствовали более или менее успешному связыванию записей. В итоге было установлено, что связывание записей с информацией о женщинах более успешно, чем о мужчинах и записи о людях в возрасте до 20, 40-60 и после 70 лет связать легче, чем записи о людях других возрастных групп. То же характерно и для состоящих в браке в сравнении с теми, кто в браке не состоял, а также о старожилах в сравнении с мигрантами. Как показано в таблице 1, записи о фермерах связать легче, чем о тех, кто не владел землей; показатели связывания записей о рыбаках оказались выше ожидаемых. Результаты связывания записей между переписями 1875 и 1900 гг. предсказуемо оказались хуже, чем результаты связывания записей между переписями 1865 и 1875 г. из-за более длительного периода. Теоретически, на основе агрегированных данных о населении можно определить степень репрезентативности связанных данных, однако верно рассчитать суммарный эффект всех скорректированных таким образом характеристик достаточно сложно.

Таблица 1.

Профессия

/

Вид связи

Фермер

Батрак

Служащий

Фермер /

Рыбак

Батрак /

Рыбак

Служащий /

Рыбак

Рыбак

Другие профессии

Всего

Не связаны

38,6

52,3

46,7

23,6

13,6

15,4

31,7

34

32,8

Связь возможна

11,4

11,4

13,3

10,4

22,7

15,4

12,4

14,2

13,1

Связь вероятна

12,9

11,4

1,7

16,5

4,5

23,1

19,9

11,1

13,1

Связаны

37,1

25

38,3

49,5

59,1

46,2

36

40,7

41,1

Всего

100

100

100

100

100

100

100

100

100

N=

70

44

60

212

22

13

186

550

1157

Результаты связывания данных переписей 1865 и 1875 гг. по профессии, в процентах. Из анализа исключены умершие в указанный период и 735 индивидов без данных о профессии. Служащие – преимущественно занятые во вторичном и третичном секторах экономики, так называемые «белые и голубые воротнички».

Трудности связывания записей и возможные результаты при работе с лонгитюдными базами можно представить на примере прихода Рендал на границе со Швецией. Приходские протоколы, материалы переписей и другие источники были связаны вручную за период 1735-1950 гг., т.е., начиная с первых приходских регистров и до последней классической переписи, после которой Норвегия перешла на путь формирования всеобщего регистра населения. Самые низкие показатели связывания записей относятся к XVIII – первой половине XIX вв., т.е. до введения регулярных переписей, проводившихся каждые десять лет, начиная с 1866 г. Перепись 1801 г., проведенная без учета сведений о месте рождения, лишь незначительно повысила показатели связывания. Сольви Согнер (Sølvi Sogner) и её студенты смогли идентифицировать лишь половину из всех людей, упомянутых в протоколах о крещениях, бракосочетаниях и погребениях с 1815 г. по 1824 г., и еще 20% только в протоколах о крещениях и погребениях, но не в записях о вступлении в брак, поскольку в условиях высокой смертности многие умирали до вступления в брак [24, 25]. Рендал был приходом с низким уровнем миграции, и база данных представляет собой результат тщательной работы по ручному связыванию записей по небольшой территории. В муниципалитетах с более высоким уровнем миграции таких результатов не получить, однако Рендал может служить образцом для оценки процесса связывания источников в других приходах.

Даже в приходе Рендал после связывания записей вручную с использованием дополнительной информации завещаний, которые содержат данные о двух поколениях, трудно полностью реконструировать население на каждый год. Сложность усугубляется высоким уровнем смертности и мобильности населения, особенно в турбулентные годы начала XIX в., и ограниченностью сведений, регистрировавшихся в приходских книгах. Из-за высокой смертности, более чем в сотне бракосочетаний, зарегистрированных в Рендале в 1801-1815 гг., в качестве жениха или невесты выступали вдовец или вдова. Определить, жили ли вместе с ними их дети от предыдущих браков в ближайшие несколько десятилетий, задача не простая, поскольку следующая номинативная перепись была проведена лишь в 1866 г. Отчасти дополнительная информация о главах домохозяйств из протоколов сбора налогов от продажи серебра (с 1816 г.) и сбора налогов на фермерское хозяйство (с 1838 г.) помогает решить эту задачу.

Выводы

Исторический регистр населения – основа для нового понимания историко-демографического развития Норвегии в исследуемый период. Используя лонгитюдные микроданные, можно исследовать, как структура семьи, социальная и географическая мобильность менялись с течением времени. С точки зрения изучения медицины и здоровья, Исторический регистр населения станет важным источником для исследования генофонда населения, например, генетических болезней [26]. Национальный институт здоровья, один из основных партнеров Центра исторической документации, располагает медицинскими базами данных, которые можно связать с данными Исторического регистра населения. Опыт исследовательской работы с демографическими базами данных в Университете Умео и Миннесотском центре изучения населения служит примером того, что аналогичные исследовательские задачи можно решать и в Норвегии (http://www.nappdata.org/napp/ and http://www.ddb.umu.se).

В рамках локальной истории и генеалогии будет легче встроить историю индивида, семьи и сообщества в более широкий контекст. Связывание записей переписей, метрических книг, списков эмигрантов и т.д. позволит более эффективно идентифицировать людей в разных источниках, успешнее использовать и дополнять данные других исследователей по связыванию записей. Связывая семейные группы вместо отдельных индивидов и применяя изменяемые во времени характеристики, можно повысить результаты автоматического связывания до 3/4, что значительно эффективнее связывания вручную. Возможность выявления и подключения новых источников и новой информации о жизненном пути человека всегда останется, но при этом не будет необходимости идентифицировать людей и дублировать уже установленные связи между записями. Вместо этого можно будет дополнять и использовать уже проделанную другими исследователями работу. Главная цель – база данных, в которой можно проследить индивидов, семьи, фермерские хозяйства, дома и приходы во времени. Кроме того, Исторический регистр населения будет обладать функцией критики источника. Установление связей между записями о людях в разных документах позволит выявить ошибки и неточности информации источника. Создание Исторического регистра населения – задача непростая, и в данной статье были описаны некоторые трудности, с которыми пришлось столкнуться в процессе создания Регистра, и способы их преодоления. Основным является использование технологий автоматического связывания записей Регистра и ручного, проводимого интерактивно через интернет. Эта новая технология сотрудничества в сфере связывания первичных данных наиболее эффективна.

Перевод статьи Г.Торвальдсена осуществлен Е.А.Лубанцом и Е.М.Главатской.

References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.