Рус Eng Cn Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Software systems and computational methods
Reference:

Application of data transformation algorithms in time series analysis for elimination of outliers

Pozolotin Viacheslav Evgenyevich

Master, Department of Computer Engineering and Engineering Cybernetics, Ufa State Petroleum Technical University

450044, Russia, respublika Bashkortostan, g. Ufa, ul. Kosmonavtov, 1

vpozolotin4289@yandex.ru
Sultanova Ekaterina Aleksandrovna

PhD in Technical Science

Associate Professor, Department of Computing Engineering and Engineering Cybernetics, Ufa State Petroleum Technical University

450044, Russia, respublika Bashkortostan, g. Ufa, ul. Kosmonavtov, 1

katerina.sultanova@gmail.com

DOI:

10.7256/2454-0714.2019.2.28279

Received:

06-12-2018


Published:

18-07-2019


Abstract: The subject of the research is data conversion algorithms for eliminating outliers in time series. The author considers data conversion algorithms based on arithmetic mean and median, as well as combined smoothing methods like 4253Н and 3RSSH. The author considers such aspects of the topic as changing the statistical characteristics of the time series when applying transformations, and also pays attention to the issues of visual presentation of data and changing the behavior of the series when introducing outliers into the time series. When writing the work, both theoretical and empirical research methods were used: the work and software systems that affect these issues were studied, and a series of experiments was conducted. Computational experiments on processing the time series have been carried out both without emissions and with emissions for smoothing. A comparison of the results of processing time series. A software tool is proposed that allows the use of various smoothing filters. The software tool has been tested for working with various characteristics of the input data.


Keywords:

time series transformation, transformation, filter, smoothing, smoothing by median, smoothing by average, outliers, information processing, 4253H filter, 3RSSH filter

This article written in Russian. You can find original text of the article here .

В настоящее время аспектам обработки информации уделяется большое внимание, и обработка информации является одним из ведущих ориентиров не только в сфере информационных технологий, но и в других отраслях, поскольку информация используется во всех без исключения сферах человеческой деятельности. Качественный анализ информации позволяет выявлять тенденции, характеристики или некоторые свойства тех или иных объектов. А качество информации – это одна из важнейших характеристик для потребителей.

С точки зрения качества информация должна быть содержательной, актуальной, достоверной, доступной, устойчивой и прагматичной, поэтому обработка информации представляет собой важную задачу [1, с. 28-42, 2].

Имеются различные подходы к аспектам обработки информации. Если речь идёт о данных некоторых процессов, то одним из таких подходов является статистическая обработка информации.

Качество информации, получаемой из временных рядов, зависит от множества факторов: от частоты дискретизации, точности измерений, способов вычислений, особенностей конкретного процесса и других факторов. Одним из таких факторов является наличие или отсутствие выбросов значений, существенно меняющих сведения о временном ряде. Если временной ряд обладает робастностью, то значительных изменений в характеристиках ряда может и не последовать [3]. Но на практике зачастую встречаются временные ряды, не обладающие данным статистическим свойством.

Существует большое число методов по предварительному преобразованию временных рядов с целью приведения ряда к виду, пригодному для обработки. В их основе лежат различные подходы, связанные с использованием различных статистических характеристик и математических методов. В статье рассматриваются особенности результатов применения некоторых алгоритмов предварительной обработки данных к временным рядам.

Временным рядом называется серия величин, описывающих некоторый процесс, измеренных и записанных в последовательные, как правило, равные промежутки времени [4]. Рассмотрим некоторые варианты устранения выбросов путём сглаживания временного ряда алгоритмами медианного сглаживания и среднего сглаживания. Покажем, что алгоритмы сглаживания применимы к различного вида рядам, т.е. не привязаны к конкретным статистическим характеристикам.

Пусть имеется некоторый временной ряд, который обладает следующими статистическими характеристиками:

· количество элементов – 50;

· среднее арифметическое – 12,36;

· медиана – 11;

· стандартное отклонение – 10,36.

После применения сглаживающих фильтров по трём точкам полученные временные ряды обладают следующими характеристиками:

· среднее арифметическое – 12;

· медиана – 11;

· стандартное отклонение – 6.

Для граничных точек при данных видах сглаживания использовалась процедура Тьюки [5, 6, с. 529-539]. При этом после сглаживания визуально заметно, что, несмотря на близость значений статистических характеристик к характеристикам исходного ряда (среднее арифметическое и медиана), визуально ряд, сглаженный с помощью среднего арифметического, более точно повторяет поведение исходного ряда, а ряд, сглаженный медианой, имеет наиболее выраженные тенденции, характеризующие ряд (рис. 1).

1

Рисунок 1. Визуализация сглаживания ряда с помощью медианы и среднего значения по 3 точкам
(по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)

Аналогичный эксперимент был проведён по сглаживанию по пяти и семи точкам. Данный эксперимент показал, что использование таких алгоритмов устраняет выбросы исходного ряда, но при этом может приводить к появлению новых выбросов. Особенно наглядно это становится заметно при сглаживании с помощью среднего значения в граничных точках.Результаты эксперимента приведены в таблице 1, где в столбце «Способ сглаживания» условно обозначены алгоритмы преобразования данных, например, среднее-3 – это способ сглаживания через среднее арифметическое с окном скольжения длиной в 3 элемента.

Таблица 1. Результаты сглаживания с использованием процедуры Тьюки

способ сглаживания

среднее арифметическое

медиана

стандартное отклонение

размах

исходный ряд

12,36

11,00

10,36

54,00

среднее-3

12,19

11,33

6,35

25,67

среднее-5

12,27

11,40

4,42

25,00

среднее-7

12,12

11,50

4,64

34,29

медиана-3

12,16

10,50

5,93

22,00

медиана-5

12,18

11,00

5,15

20,00

медиана-7

12,32

11,00

4,74

21,00

Использование линейного сглаживания с помощью интерполяционных многочленов позволяет в некоторых случаях избежать возникновения новых выбросов, получая при этом результаты, приближённые к сглаживанию с использованием процедуры Тьюки [7] (рис. 2). Для сглаживания по трём точкам применяются следующие формулы:

где N – число наблюдений во временном ряду.

Формулы, применяемые для линейного сглаживания по пяти точкам:

где N – число наблюдений во временном ряду.

Для сглаживания по семи точкам используется алгоритм нелинейного сглаживания.

где N – число наблюдений во временном ряду.

Результаты эксперимента приведены в таблице 2.

Таблица 2. Результаты сглаживания с использованием интерполяционных многочленов

способ сглаживания

среднее арифметическое

медиана

стандартное отклонение

размах

исходный ряд

12,36

11,00

10,36

54,00

среднее-3

12,30

11,50

6,23

25,67

среднее-5

12,50

11,40

4,56

20,60

среднее-7

12,41

11,17

6,55

29,62

медиана-3

12,09

10,50

5,89

22,50

медиана-5

12,34

11,00

5,42

20,00

медиана-7

12,66

11,00

5,83

26,43

2

Рисунок 2. Визуализация сглаживания ряда с использованием интерполяционных полиномов
(по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)

Помимо этого, на практике широко зарекомендовал себя фильтр 4253Н – фильтр, основанный на последовательности преобразований исходного ряда через четырёхточечную скользящую медиану с применением центрирования, пятиточечное медианное сглаживание и трёхточечную скользящую медиану с использованием весов Хеннинга [8-10]. Данный фильтр сперва применяется к исходному ряду, а затем к остаткам, полученным в результате сглаживания. Сумма сглаженных остатков и ряда, сглаженного на первом этапе, представляет собой ряд, сглаженный фильтром.

Преобразованный этим фильтром ряд визуально сохраняет все тенденции исходного ряда и обладает статистическими свойствами, подобными исходному ряду (рис. 3).

3

Рисунок 3. Визуализация сглаживания ряда с помощью 4253Н-фильтра
(по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)

Существует несколько известных вариаций этого фильтра. Наиболее часто применяются 4253Hи 4253H-twice.

Помимо этого, фильтр 3RSSH, основанный на цикличном применении скользящей медианы к элементам ряда, также хорошо снижает влияние выбросов на статистические характеристики временного ряда. Фильтр циклично применяет медианное сглаживание по трём точкам к блокам временного ряда, ограниченных стыками повторяющихся значений, тем самым добиваясь устранения значений-выбросов и приводя кривую визуально к более гладкому виду [8, 11, 12].

Сглаживание с пропуском среднего (skip-meanfilter, sm-filter)также иногда применяется при обработке временных рядов [13]. Зачастую данный способ сглаживания используется в комбинации с другими видами сглаживания, поскольку разовое применение данного алгоритма в большинстве случаев не способно полностью устранить выбросы – алгоритм, как правило, смещает выбросы.

Таблица 3. Результаты сглаживания с использованием фильтров 4253Н и 3RSSH

способ сглаживания

среднее арифметическое

медиана

стандартное отклонение

размах

исходный ряд

12,36

11,00

10,36

54,00

4253Н

12,21

11,54

4,62

19,58

4253Н-twice

12,16

11,97

4,38

19,16

3RSSH

11,95

11,00

5,21

21,50

sm

12,34

12,00

6,83

31,50

sm-twice

12,27

12,38

5,41

26,00

Заменим несколько элементов исходного ряда на значения-выбросы и получим модифицированный ряд. Такое внедрение в исходный ряд нескольких элементов-выбросов позволит оценить, насколько тот или иной метод сглаживания проявляет себя лучше.

Пусть в новом, модифицированном ряде имеются 4 значения-выброса, различимые даже на уровне визуального анализа временного ряда. Применим поочерёдно алгоритмы сглаживания и сравним полученные результаты.

Таблица 4. Результаты сглаживания после добавления элементов-выбросов

способ сглаживания

среднее арифметическое

медиана

стандартное отклонение

размах

модифицированный ряд

12,08

12,00

30,16

200,00

среднее-3 (Тьюки)

11,91

12,17

17,12

72,67

среднее-5 (Тьюки)

12,27

11,40

4,42

25,00

среднее-7 (Тьюки)

12,12

11,50

4,64

34,29

среднее-3 (интерполяция)

12,02

12,83

17,08

72,67

среднее-5 (интерполяция)

12,22

12,50

12,51

46,20

среднее-7 (интерполяция)

12,00

11,29

17,19

68,62

медиана-3 (Тьюки)

12,80

11,00

6,39

25,00

медиана-5 (Тьюки)

12,18

11,00

5,15

20,00

медиана-7 (Тьюки)

12,32

11,00

4,74

21,00

медиана-3 (интерполяция)

12,73

11,00

6,36

25,00

медиана-5 (интерполяция)

12,96

11,00

5,48

20,00

медиана-7 (интерполяция)

13,26

11,00

5,41

24,24

4253Н

12,94

12,33

4,71

19,58

4253Н-twice

12,93

12,38

4,45

19,16

3RSSH

12,61

12,50

5,21

21,50

sm

12,06

12,50

21,06

110,50

sm-twice

11,99

12,00

17,73

105,25

Заметим, что размах элементов выборки значительно сокращается в случаях применения алгоритмов сглаживания, основанных на использовании медианы, а наилучшие результаты получены при сглаживании с использованием комбинированных 4253Н-фильтров. При этом алгоритмы, основанные на использовании среднего арифметического наиболее подвержены влиянию выбросов: алгоритмы хоть и избавляют от элементов-выбросов, но тем не менее изменяют характер поведения временного ряда на участках, где данные элементы находились. А в случае с использованием фильтров с пропуском среднего размах и вовсе изменяется незначительно по сравнению с методами на основе медиан (рис. 4).

4

Рисунок 4.Визуализация сглаживания ряда с выбросами с помощью 4253Н-фильтра
(по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)

Таким образом, использование алгоритмов по сглаживанию данных на основе медианы позволяет наилучшим из рассмотренных способов устранить выбросы из обрабатываемых временных рядов. Это связано с тем, что медиана является наиболее робастной, т.е. устойчивой к помехам, статистической характеристикой [14].

Применение сглаживающих фильтров позволяет устранить выбросы, сохранив при этом общие характеристики временного ряда. Автоматизация применения сглаживающих фильтров позволит сократить временные затраты на исследование и дальнейшую обработку временного ряда.

Как было показано в экспериментальной части, широкий спектр методов сглаживания, а также сравнение различных статистических характеристик позволяет определить, какой из применённых алгоритмов наиболее применим в исследуемой ситуации. Для автоматизации расчёта было реализовано программное средство, позволяющее не только применять данные алгоритмы, но и визуализировать процесс сглаживания с сохранением истории применения трансформаций, а также сразу определять необходимые статистические характеристики. Благодаря этому, пользователь имеет возможность вернуться к любому шагу истории в том случае, если применённая трансформация искажает временной ряд (рис. 5). Программное средство разработано в среде Microsoft Visual Studio 2015, поскольку данная инструментальная среда обладает достаточным функционалом для реализации всех необходимых компонентов, в частности для визуализации графики, сохранения истории изменений и возможности применения различных алгоритмов.

5

Рисунок 5. Визуализация применения алгоритмов сглаживания с помощью программного средства

Выводы

Авторы кратко описали способы применения алгоритмов преобразования данных на примере их применения к временному ряду с выбросами и без выбросов. Приведены сравнительные характеристики применения алгоритмов и проанализированы полученные в результате экспериментов данные. Предложено программное средство, упрощающее проведение анализа временного ряда на предмет устранения выбросов.

References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.