Library
|
Your profile |
Cybernetics and programming
Reference:
Sklyar A.
Analysis and elimination of noise components in time series with variable pitch
// Cybernetics and programming.
2019. № 1.
P. 51-59.
DOI: 10.25136/2644-5522.2019.1.27031 URL: https://en.nbpublish.com/library_read_article.php?id=27031
Analysis and elimination of noise components in time series with variable pitch
DOI: 10.25136/2644-5522.2019.1.27031Received: 01-08-2018Published: 04-03-2019Abstract: The article discusses the methodology for estimating the noise component in time series with variable pitch, its justification, and suggests an algorithm for removing noise from data. The analysis is based on the requirement of smoothness of a function representing the original data and having continuous derivatives up to the third order. The proposed method and algorithms for estimating and eliminating noise in the data under the assumption of smoothness, the function they represent, allow reasonably determining both absolute and relative noise in the data, regardless of the uniformity of the measurement step in the source data, the noise level in the data, remove the noise component from the data . The algorithm for solving the problem is based on minimizing the deviations of the calculated values from the smooth function, provided that the deviations from the source data correspond to the noise level. The proposed method and algorithms for estimating and eliminating noise in the data under the assumption of smoothness, the function they represent, allow reasonably determining both absolute and relative noise in the data, regardless of the uniformity of the measurement step in the source data and their noise, and remove the noise component from the data. Considering the smoothness of the data obtained as a result of noise elimination, the data obtained by noise elimination are suitable for detecting both analytical and differential dependencies in them. Keywords: absolute noise, relative noise, digital noise filtration, time series, trend, data decomposition, numerical simulation, time series analysis, mathematical model, statistics processingThis article written in Russian. You can find original text of the article here . 1. Введение Большое количество процессов происходящих в экономике, результатов экспериментальных исследований в различных областях можно описать в виде временных рядов или последовательностей данных. Элементами такого ряда являются пары, задающие момент наступления события (значение аргумента) и соответствующий ему результат (значение функции). Последовательность событий может измеряться как с постоянным, так и с переменным шагом. Значения, сопоставляемые элементам получающегося ряда, содержат и ошибки измерения и, в общем случае, подвержены случайным внешним воздействиям. В дальнейшем такого рода ошибки измерений и результаты внешних воздействий будем трактовать, как шум. При анализе данных временного ряда и прогнозировании на его основе возникает множество задач, связанных с выделением трендовой, колебательной и составляющих [1,2.3,4]. Для выявления таких рядов используются различные методы в зависимости от характера данных [5,6,7,8]. В то же время анализ и обработка зашумленных данных вызывает значительные трудности. Возникает задача устранения, по возможности, такого шума. Для устранения такого шума используются различные методы сглаживания, такие как, методы скользящей средней, экспоненциального сглаживания и др. [9], в частности методы, связанные с добавлением белого шума и последующим устранением шумовой компоненты за счет его усреднения [10].
2. Оценка шумовой компоненты в исходных данных Обозначим значения аргумента (временные отрезки) через xi, соответствующие им наблюдаемые значения через yi, предполагаемую функцию «истинной» зависимости – f(x). И исследуемый ряд представим в виде пар (xi , f(xi)). Будем рассматривать общий случай, когда исходные данные задаются с переменным шагом xi+1=xi+hi, где величины hi, вообще говоря, различны. Наблюдаемые данные будем представлять в виде , где si – шум. Пусть функцию f(x) имеет производные до 4 порядка включительно, тогда ее значение в точке x+t может быть представлено как Рассмотрим значения функции в окрестности точки x0. Выберем точки xk=x0+tk, где k=0,1,2,3,4; t0=0 и все tk различны. В матричном виде она примет вид. AB=C Индекс k принимает значения 1, 2, 3, 4. Ранг матрицы A равен 3, следовательно, существует вектор , где не все λk равны 0 такой, что , тогда . Значения λk определяются с точностью до постоянного множителя, в частности, положив λ4=1, получим допустимый набор из решения системы линейных уравнений
Определитель матрицы A Аналогично
Поскольку вектор определен с точностью до произвольного множителя, то их удобнее представить в симметричном виде В частности, решение этой системы для равноотстоящих узлов [11] t0=0, t1=-1, t2=1, t3=-2, t4=2 дает значения Учитывая (2) получаем Отметим, что выражение слева дает с точностью до множителя t4 численное представление четвертой производной и при функциях f(x), представимых в виде полиномов не выше третьей степени, тождественно обращается в 0.
Далее учтем, что f(xm+tk)=ym+k-sm+k и, следовательно При отсутствии быстрых, то есть с периодами соизмеримыми с шагом ряда, осцилляций f(x) величину можно считать малой, и тогда получаем
Величина систематических отклонений от 0 будет тем меньше, чем меньше будет , то есть при выборе набора из пяти точек в качестве базовой точки x целесообразно выбирать точку x3. Перенумеруем точки и введем , тогда (5) примет вид Правая часть равенства (6) представляет собой случайную величину. Пусть величины sm+k – независимые случайные величины с 0 математическим ожиданием и дисперсией σ2, тогда математическое ожидание . Среднеквадратичное значение шума σ2, таким образом, можно оценить исходя из 3. Выделение в данных функциональной и шумовой компонент В этих условиях можно определить значения шумовой компоненты s и, следовательно, f(x) исходя из
Перепишем (7) в матричных обозначениях. Для этого введем матрицу L=(lij), где , тогда
И условие минимума принимает вид или В отличие от случая с равноотстоящими узлами здесь возникает необходимость вычисления элементов матрицы L для каждой строки (при равноотстоящих узлах ненулевые элементы матрицы L одинаковы для всех строк). Система (9) из-за ограничения является нелинейной и нахождение ее решений даже при небольшой размерности встречает значительные вычислительные трудности. В то же время решение системы линейных алгебраических уравнений (СЛАУ) из (10) при заданном значении t не создает особых проблем. В самом деле, матрица является 9 диагональной ленточной матрицей и можно показать, что время решения СЛАУ с такой матрицей линейно по числу уравнений. Отметим, что матрица является неотрицательно определенной и все ее собственные числа μi≥0. Пусть Ei – собственные вектора матрицы, соответствующие собственным числам μi≥0, Тогда первое из равенств (9) примет вид В этих условиях представляет собой при t>0 монотонно убывающую функцию от t. Заметим, что при t→0 минимум функции F(s) в (8) будет достигаться, как следует из (5), при . Последнее условие означает стремление 4-ой производной к 0, то есть исходная функция будет близка к полиному не выше 3 степени. При t→∞ минимум F(s) будет достигаться, при si→0 и, следовательно, функция f(xi)→yi. 4. Алгоритм удаления шума и выделения функциональной компоненты в данных Учитывая сделанные замечания о характере функции F(s) можно предложить следующий итеративный алгоритм.
1. Вычисляем оценку шума σ2 на основе (6). Задаем начальное значение t0. 2. Решаем СЛАУ в соответствии с (9) и вычисляем значение <s,s>. 3. Если <s,s> > σ2, переходим к пункту 4, иначе к пункту 5. 4. Решаем СЛАУ в соответствии с (9) с t=2t0 и вычисляем значение <s,s>. Если <s,s> >nσ2, устанавливаем t0=t и повторяем пункт 4. В противном случае устанавливаем t1=t и переходим к пункту 6. 5. Решаем СЛАУ в соответствии с (9) с t=t0/2 и вычисляем значение <s,s>. Если <s,s> <nσ2, устанавливаем t0=t и повторяем пункт 5. В противном случае устанавливаем t0=t, t1=t0 и переходим к пункту 6. 6. Искомое значение t лежит между t0 и t1. Решаем СЛАУ в соответствии с (9) с t= (t0 + t1)/2 и вычисляем значение <s,s>. Если |<s,s> -nσ2|<ε, то останавливаем процесс и на основе вычисленных значений si рассчитываем значения искомой функции f(xi)= yi-si. Если нет, то строим новый интервал, устанавливая в зависимости от выполнения неравенства <s,s> >nσ2 либо t0=t, либоt1=t и переходим к пункту 6. Отметим, что говоря о шуме и его дисперсии в (6) и (7) предполагается, что он представляет собой одинаково распределенную случайную величину на всем временном ряде. Если это не так, то вместо абсолютной величины шума si в (5) шум удобнее представлять в виде si=φ(x,y)ui так, чтобы случайная величина ui была бы одинаково распределенной на всем временном ряде. Наиболее естественно предполагать при большом разбросе исходных данных, что шум является результатом измерений, которые имеют постоянной относительную погрешность. В этом случае естественно принять si=yiui, тогда (6) и (7) примут соответственно вид Тогда дисперсия относительного шума u определяется из (11) И задача (7) приобретает вид Или в матричном виде Тогда условие минимума принимает вид или Отдельно следует отметить, что предлагаемая схема исключает из выделения шума компоненты зависимостей до полиномов 3 степени включительно. Последнее может оказаться обременительным для сильно зашумленных данных. В этом случае для исключения шума удобнее использовать более грубую схему, исключающую из выделения шума компоненты зависимостей до полиномов только 2 степени. В частности, решение этой системы для равноотстоящих узлов [11] t0=0, t1=-h, t2=h, t3=-2h, t4=2h дает значения 5. Результаты численного моделирования На рисунке 1 представлены результаты обработки зашумленных данных. Значения по осям x и y – , где rnd представляет собой случайную величину, равномерно распределенную на интервале (-0,1;0,1).
Рисунок 1
На рисунке 2 представлены результаты обработки данных, представляющих значения функции y=ex на интервале (0;10) с шагом 0,1 округленные до двух значащих цифр. Среднеквадратичная абсолютная погрешность исходных данных от теоретической кривой в рассматриваемом примере составляет 56, при удалении абсолютного шума - 30, при удалении относительного шума – 19. Таким образом, в случаях, когда данные меняются в широких пределах, а в данном случае отношение максимального значения к минимальному составляет 22000, удаление относительного шума приводит и к лучшему удалению абсолютного шума по сравнению с методом прямого удаления абсолютного шума.
Рисунок 2
6. Выводы Таким образом, предлагаемая методика и алгоритмы выявления и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют: · обоснованно определить уровень как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных; · удалить из данных шумовую компоненту; · учитывая гладкость данных, получаемых в результате устранения шума, проводить анализ выделенных данных для выявления в них аналитических и дифференциальных зависимостей.
References
1. Greshilov A.A., Stakun V.A., Stakun A.A. Matematicheskie metody postroeniya prognozov. M.: Radio i svyaz', 1997. 112 s.
2. Kantorovich G.G. Analiz vremennykh ryadov. Ekonomicheskii zhurnal VShE. №1 2002, №2 2002, №3 2002, №4 2002, №1 2003 3. Anderson T. Statisticheskii analiz vremennykh ryadov. M: Mir, 1976. 523 s. 4. Afanas'ev V.N., Yuzbashev M.M. Analiz vremennykh ryadov i prognozirovanie. M.; Finansy i statistika,2001. — 228 s. 5. Gubanov V.A. Vydelenie trenda iz vremennykh ryadov makroekonomicheskikh pokazatelei. V sb.: Nauchnye trudy: Institut narodnokhozyaistvennogo prognozirovaniya RAN, 2005. — T.3 6. Bol'shakov A.A., Karimov R.N. Metody obrabotki mnogomernykh dannykh i vremennykh ryadov. M.: Goryachaya liniya-Telekom, 2007. — 522 s. 7. F.Aleksandrov, N.Golyandina. Vybor parametrov pri avtomaticheskom vydelenii trendovykh i periodicheskikh sostavlyayushchikh vremennogo ryada v ramkakh podkhoda «Gusenitsa»-SSA. Trudy IV Mezhdunarodnoi konferentsii «Identifikatsiya sistem i zadachi upravleniya» SICPRO'05. 8. Dubovikov M. M., Starchenko N. V. O fraktal'nom analize khaoticheskikh vremennykh ryadov. 2014 International Conference on Adaptive and Intelligent Systems - ICAIS'14. 9. Boks Dzh., Dzhenkins G. Analiz vremennykh ryadov. Prognoz i upravlenie. Vyp. 1. M.: Mir, 1974. 406 s. 10. Zhaohua wu and Norden E. Huang. ensemble empirical mode decomposition: A noise-assisted data analysis method. Advances in Adaptive Data AnalysisVol. 01, No. 01, pp. 1-41 (2009) 11. Sklyar A.Ya. Analiz i ustranenie shumovoi komponenty vo vremennykh ryadakh. Uspekhi sovremennoi nauki, №11, 2017 g. – 11s. |