Рус Eng Cn Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Software systems and computational methods
Reference:

Methods for preparing data for the analysis of poorly structured time series

Ignatenko Anna Mikhailovna

Senior Lecturer, Department of Applied Mathematics and Computer Science, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

allrededor@mail.ru
Other publications by this author
 

 
Makarova Irina Leonidovna

PhD in Technical Science

Head of Department, Department of Applied Mathematics and Computer Science, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

ratton@mail.ru
Other publications by this author
 

 
Kopyrin Andrey Sergeevich

PhD in Economics

Head of Department, Department of Information Technology, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

kopyrin_a@mail.ru
Other publications by this author
 

 

DOI:

10.7256/2454-0714.2019.4.31797

Received:

20-12-2019


Published:

06-01-2020


Abstract: The aim of the study is to prepare for the analysis of poorly structured source data, their analysis, the study of the influence of data "pollution" on the results of regression analysis. The task of structuring data, preparing them for a qualitative analysis is a unique task for each specific set of source data and cannot be solved using a general algorithm, it will always have its own characteristics. The problems that may cause difficulties when working (analysis, processing, search) with poorly structured data are considered. Examples of poorly structured data and structured data that are used in the preparation of data for analysis are given. These algorithms for preparing weakly structured data for analysis are considered and described. The cleaning and analysis procedures on the data set were carried out. Four regression models were constructed and compared. As a result, the following conclusions were formulated: Exclusion from the analysis of various kinds of suspicious observations can drastically reduce the size of the population and lead to an unreasonable decrease in variation. At the same time, such an approach would be completely unacceptable if, as a result, important objects of observation are excluded from the analysis and the integrity of the population is violated. The quality of the constructed model may deteriorate in the presence of abnormal values, but may also improve due to them.


Keywords:

semi-structured data, data cleaning, regression analysis, anomaly detection, linear model, big data, statistics, modelling, noise removal, econometrics

This article written in Russian. You can find original text of the article here .

Введение

Сегодня, в условиях активного развития информационных технологий, для проведения исследований в любой сфере, приходится работать с большим объемом данных, которые представляются в различных видах: текстовая информация, аудио и графические отображения, строки с адресами и т.д. Такие данные являются неструктурированными или слабоструктурированными. В связи с чем возникает необходимость подготовки и структурирования этих данных таким образом, чтобы проведенный анализ был точным, корректным и значимым.

Целью исследования является подготовка к анализу слабоструктурированных исходных данных, их анализ, изучение влияния «загрязнения» данных на резльтаты регрессионного анализа.

Материал и методы исследования

Слабоструктурированные данные (полуструктурированные или плохо структурированные данные) - являются формой организации данных, при которой структура документа не может быть задана заранее, а база данных (БД), хранящая такие документы допускает неопределённости в схеме описания, а также может изменяться в течение эксплуатации, эта форма данных содержит теги и другие маркеры для отделения семантических элементов и для обеспечения иерархической структуры записей и полей в наборе данных. Также слабоструктурированные данные часто выделяют как отдельный вид данных по основанию: степени структурированности. Слабоструктурированными данными являются данные, для которых определены некоторые правила и форматы, но лишь в общем виде. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа. В слабоструктурированных данных, сущности, принадлежащие одному и тому же классу данных, могут иметь разные атрибуты [1].

Исходную информацию, поступающую из различных источников, необходимо сначала извлечь с помощью средств и методов, которые помогают получить выходные данные, готовые для последующего анализа, преобразования, построения прогнозов и управления ими, в целом. Системы преобразования данных сегодня проходят бурный этап развития: исследуются предметные области применения данных систем, разрабатываются алгоритмы анализа структурированных и неструктурированных данных.

Обозначим некоторые проблемы, которые могут вызывать трудности при работе (анализе, обработке, поиске) со слабоструктурированными данными:

1) поиск при больших объемах данных;

2) непосредственная работа с данными;

3) перевод данных в необходимый формат.

Выполнять поиск необходимой информации среди больших объёмов данных довольно затруднительно. Вычислительные ресурсы базы данных быстро изнашиваются, так как дисковая подсистема – это самый медленный элемент при обращении к хранилищу данных. Ускорить процесс работы с таким набором данных возможно с использованием Radix деревьев [2, 3] или хеш-таблиц [4].

Вторая проблема – это непосредственная работа с массивом слабоструктурированных данных. Иногда особенная структура данных не позволяет применить математические методы или подставить их под конкретную схему расчетов при построении моделей. Решением данной проблемы может быть применение известных на сегодняшних день алгоритмов в методах Data Mining [5, 6].

Третья проблема – это проблема перевода слабоструктурированных данных в необходимый формат, например, при обмене структурированными данными между различными базами данных. Кроме того, навигация по данным, доступного формата происходит значительно легче и быстрее.

В связи с этими проблемами, возникает необходимость в разработке и применение новых многометодных подходов к подготовке к анализу слабоструктурированных данных. Для применения процедур подготовки данных к анализу, приведем примеры (таблица 1) слабоструктурированных данных и структурированных данных.

Таблица 1 - Типы слабоструктурированных и структурированных данных

Слабоструктурированные данные

Структурированные данные

1. Любые промежуточные между структурированным и неструктуриро-ванными данными.

2. Данные с неполной и недоопределенной структурой, допускающей исключения.

3. Значения скалярных данных могут быть текстами.

1. Схемы XML.

2. Скалярные типы данных (строки, числа, даты).

3. Последовательности.

4. Сложные типы данных.

5. Ограничения.

Качество статистических результатов анализа напрямую зависит от качества их подготовки к данному анализу. Выделим следующие процедуры подготовки слабоструктурированных данных к анализу:

1. Преобразование данных. Процедура заключается в преставлении данных в нужном формате для последующей обработки. Например, применение различных типов обозначения категории «Дата».

2. Поиск различных представлений значений. Заключается в обнаружении данных, выходящих за пределы допустимых значений. Сравнение множества значений атрибутов столбца одной таблицы с тем же множеством для столбца другой таблицы [7].

3. Удаление шумов. Шумом называют сильные отклонения от среднего значения в наборе данных. При этом шум не несет никакой полезной информации, но может помешать увидеть реальную картину, снижает достоверность результатов анализа. Для удаления шумов используют спектральный анализ, авторегрессионные преобразования, в некоторых случаях используют вейвлет преобразование [8, 9].

4. Поиск утраченных значений. Это неопределённые значения, которые невозможно установить, так как они отсутствовали или были введены неправильно.

5. Сглаживание данных. Сглаживание экспериментальных данных является способом уменьшения влияния различных случайных факторов. Для этого используют методы скользящих средних, экспоненциальное сглаживание, метод четвертных разностей, с помощью рядов Фурье и степенных многочленов и т.п.

6. Обнаружение орфографических и синтаксических ошибок. Сортировка по значениям часто ставит значения с ошибками рядом с правильными.

7. Обнаружение дубликатов данных. Можно сделать при помощи процедуры сортировки. И определить число вхождений данных. Дублируемые данные исключаются из общего массива данных.

8. Обнаружение недопустимых значений. Например, категория «Возраст» равный 200 лет или категория данных «Пол» больше 2. Такие значения также корректируются.

9. Редактирование аномалий. В основе лежит метод статистических оценок, таких, например, как медиана и др. [10, 11]. При этом можно задать эмпирически подобранный критерий того, что считать аномалией. Например, например, резкое отклонение величины от ее ожидаемого значения (погода летом «-120»).

Кроме данных процедур целесообразно применить методы статистической обработки данных, которые значительно повысят качество исходных данных. К ним относятся:

1. Взвешивание. Заключается в присвоении каждому наблюдению определенного весового коэффициента. Применяется для того, чтобы определить наиболее ценные категории данных для анализа.

2. Переопределение переменой. Метод введения новых переменных или изменения существующих.

3. Преобразование шкалы. Значения переменных, полученные в разных шкалах, приводят к одной нормализованной величине.

Рассмотрим применение некоторых из представленных выше процедур на примере.

Результаты исследования и их обсуждение

Необходимо подготовить к анализу набор данных из 254228 наблюдений за различными объектами по 10 показателям, записанным в Excel-таблице (см. таблицы 2 и 3).

Таблица 2 – Выборочные значения набора данных

Код

Месяц

Температура

Прибор 1

Прибор 2

Прибор 3

Прибор учета

Проживающие

Площадь

Объем

000000003

Февраль 2015

8,2

1

1

1

1

2

46

112

000074393

Май 2015

15,1

2

1

1

1

1

70

224

000074393

Август 2015

24,5

2

1

1

1

1

70

-36

000074393

Ноябрь 2015

11,2

2

1

1

1

1

70

142

000112893

Февраль 2016

9,0

1

1

1

1

1

38

7

000112894

Ноябрь 2014

9,5

1

1

1

1

1

45

-14

Представленный набор данных является характерным при анализе потребления коммунальных ресурсов (электро-, газо-, водоснабжения) в муниципальном районе. Один из показателей – идентификационный код объекта, выраженный девятизначным числом, не несет в себе никакой смысловой нагрузки, кроме порядкового номера. Данный индикатор характеризует объект потребления. Следующие два показателя - дата и температура - тесно связаны друг с другом: для любого объекта определенному периоду соответствует определенная и одинаковая температура. Другими словами, эти показатели дублируют друг друга и, уж если выбирать из них, то температура несет больше физического смысла. Ещё 4 показателя выражены целыми числами из диапазона (0; 30) и являются характерными для рассматриваемой предметной области. Показатель количества проживающих в определенном объекте, понятно, что мог выражаться целыми неотрицательными числами, в нашем наборе принимал значения от 0 до 85 и не имел видимых ошибок в данных.

Два последних показателя – площадь и объем – имеют определенный физический смысли поэтому могут быть проверены на наличие видимых ошибочных данных. Например, не могут проживать люди на нулевой площади или не может быть отрицательным объем. Однако указанные ошибки широко встречаются в наборе данных, что можно объяснить различными причинами: ошибочные или намеренно искаженные, с целью снижения оплаты, показания приборов учета; корректировки, связанные с правилами учета коммунальных ресурсов и т.п. – ведут к появлению отрицательных объемов. Отсутствие первичных документов или ошибки операторов приводят к отсутствию данных о площади объектов.

С помощью функций табличного процессора Excel и встроенного средства VBA, была произведена выборка и сортировка набора исходных данных.

Таблица 3 – Характеристики рассматриваемого набора данных

Дата

Общее количество наблюдений

Количество наблюдений без отрицательного объема

Количество наблюдений только с положительным объемом

Количество наблюдений с положительными объемом и площадью

11.2014

36672

35526

35371

29663

02.2015

40647

37035

36907

30111

05.2015

42430

40783

40677

33036

08.2015

43525

42483

42424

34345

11.2015

44236

42522

42463

34307

02.2016

46718

43423

43204

35251

Итого:

254228

241772

241046

196713

Исключение объектов, имеющих разного рода «загрязнения», является наиболее простым способом, так как не требует применения никаких дополнительных алгоритмов [12].

Теперь воспользуемся одним из полученных пространственных наборов данных для проведения регрессионного анализа. Пусть необходимо построить линейную модель множественной регрессии для зависимой переменной y, условно выражающей некоторый объем, и шести независимых переменных х1, х2, … x6 различных размерностей. Каждое наблюдение соответствует определенному объекту, то есть имеется набор пространственных данных, содержащих n=46718 наблюдений. Данные представлены в таблице Excel и, помимо уже указанной информации, содержат код объекта и дату измерений.

Первичный осмотр исходных данных позволил сделать вывод об их «загрязнении» недопустимыми значениями зависимой и одной из независимых переменных. Для проведения в дальнейшем сравнительного анализа, результаты которого представлены в Таблице 4, было построено уравнение регрессии по всем исходным данным – модель 1. Отметим, что кроме коэффициента при переменной х3 все остальные коэффициенты статистически значимы, как и уравнение в целом. Однако, значение скорректированного коэффициента детерминации говорит о плохом качестве модели.

Таблица 4 – Сравнительная характеристика моделей регрессии с разной степенью очистки исходных данных

Модель

Уравнение регрессии

R2

1

y=1121,978+104,742x1+49,469x2+169,537x3-1277,19x4+53,959x5-0,299x6

0,006

2

y =-20,140+18,471x1+27,766x2+220,389x3-14,855x4+20,817x5+2,643x6

0,304

3

y=-18,412+18,245x1+27,625x2+220,727x3-15,675x4+20,763x5+2,643x6

0,303

4

y=38,902+21,953x1+6,996x2+166,857x3- 6,801x4+24,223x5+2,647x6

0,236

Первым шагом в очищении данных было устранение явно неверных (отрицательных) значений зависимой переменной – модель 2. При этом были потеряны 3295 наблюдений. Исключение наблюдений, не удовлетворяющих принятым условиям – достаточно грубый способ, но самый простой, так как не требует использования дополнительных алгоритмов. В модели 2 существенно изменились практически все коэффициенты: два поменяли знак, остальные увеличились или уменьшились в разы. Статистически не значимыми оказались свободный член уравнения и коэффициент при х5, уравнение в целом осталось статистически значимым, а коэффициент детерминации вырос.

На следующем шаге были исключены данные наблюдений с нулевыми значениями зависимой переменной, это привело к потере ещё 219 наблюдений. Построенное регрессионное уравнение – модель 3. Результат мало изменился и по величине, и по статистической значимости.

Модель 4 построена по данным, имеющим только положительные объем y и площадь х6. Исключение из рассмотрения неположительных объема и площади привело к потере еще 7953 наблюдений, но их всё еще оставалось достаточно много для проведения регрессионного анализа. В результате (Таблица 4, модель 4) существенно изменились: свободный член уравнения, он поменял знак; коэффициент при х2 стал статистически незначим. При этом коэффициент при х6 остался практически неизменным, хотя исключались данные именно по х6.

Таким образом, при анализе данных принимаются во внимание все наблюдаемые значения показателей (т.е. отсутствуют «выколотые» точки, которые в случае исследования статистическими методами могли быть проигнорированы).

Заключение

По результатам проведенных исследований можно сделать следующие выводы.

Задача структурирования данных, подготовки их к качественному анализу является уникальной задачей для каждого конкретного набора исходных данных и не может быть решена с помощью общего алгоритма, всегда будет иметь свои особенности.

Исключение из анализа разного рода подозрительных наблюдений может резко сократить объем совокупности и привести к необоснованному снижению вариации. При этом, такой подход будет совершенно неприемлем, если в результате из анализа будут исключены важные объекты наблюдений и нарушена целостность совокупности.

Качество построенной модели может ухудшаться при наличии аномальных значений, но может и улучшаться за их счет.

References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.