Рус Eng Cn Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Software systems and computational methods
Reference:

Software models and monitoring methods of the state of processing nodes in the cloud infocommunication system using Zabbix

Shchemelinin Dmitry

ORCID: 0000-0003-3032-130X

Doctor of Technical Science

Peter the Great St. Petersburg Polytechnic University

195251, Russia, g. Saint Petersburg, ul. Politekhnicheskaya, 29

dshchmel@gmail.com
Other publications by this author
 

 

DOI:

10.7256/2454-0714.2021.2.35617

Received:

02-05-2021


Published:

04-07-2021


Abstract: The subject of this research is the new methods for improving the efficiency of Zabbix monitoring systems for the computational infrastructure of the universal infocommunication commutator, built upon the principle of globally distributed computational complex using the information cloud technologies. The object of this research is the globally distributed computational system of RingCentral corporation (USA), which is based on the technology of hybrid information cloud deployed in over a hundred  data storage and processing centers in all large economic and geographical zones, which provides universal infocommunication services, including video and audio conferences, virtual stationary automated telephone, and organization of call centers. Design and improvement of infocommunication cloud platforms, which provide universal communication services is a complex scientific, technical and economic problem; without its solution it is impossible to create information infrastructure with the service quality indicators that meet the demands of the society. This problem is of particular relevance in the context of worldwide sanitary-epidemiological pandemic of coronavirus, since part of the production processes was switched to remote work, and is executed without physical presence of administrative and technical personnel at the enterprises of national economy. This entailed a decline in the efficiency of networks and quality of customer service in certain infocommunication companies due to excessive nominal loads on the information network, and this, the failure of crucial nodes of user traffic processing.


Keywords:

automation, cloud computing, change management, distributed IT systems, maintenance, IT, info communication, monitoring systems, Zabbix, quality of service

This article written in Russian. You can find original text of the article here .

Введение

Принципы безотказного функционирования облачных инфокоммуникационных сетей связи обусловлены методами обработки информации, а качество обслуживания пользователей напрямую зависит от профайла нагрузки на информационную систему (ИС). Оценка качества обслуживания трафика является одним из важнейших научных направлений в исследованиях инфокоммуникационных сетей. На этом базируется продуманная и целенаправленная стратегия модернизации современных глобально-распределенных вычислительных комплексов (ГРВК) участвующих в предоставлении универсальных услуг связи UCaaS (англ. Unified Communication as a Service) на этапе их конвергенции и замены технологии физических серверов на технологию публичных облачных вычислений [1]. При системном подходе к проблеме планирования и оптимизации ГРВК невозможно обойтись без математических методов анализа, синтеза и оценки качества предоставления информационных услуг в условиях реальных потоков сообщений. Отсутствие таких методов приводит к принятию неоптимальных решений в процессе разработки, проектирования и эксплуатации сетей UCaaS, поскольку возникает резкое несоответствие между ожидаемыми показателями и реальным качеством обслуживания. С учетом таких обстоятельств становится актуальной задача по разработке новых методов мониторинга и анализа ИС, которые адекватно отображают реальные процессы обмена информацией в ее процессинговых узлах состоящих из подмножества специальных вычислительных компонент (СВК), количество которых определяется масштабами пропускной способности конкретного узла в ГРВК.

Объект и цели научного исследования

Объектами исследования являются ГРВК компании RingCentral (США), как лидера мирового рынка предоставления услуг UCaaS [2] и система мониторинга Zabbix [3,4], как лидера мирового рынка программных продуктов мониторинга ИС предоставленных по принципу открытого исходного кода.

Цель научного исследования – создание централизованной, высоко эффективной методики анализа, синтеза и оценки качества предоставления информационных услуг в ГРВК с учетом реальных потоков сообщений, при помощи Zabbix.

Методика эксперимента и ее математическая модель

В качестве примера, рассмотрим процессинговый узел состоящий из четырех СВК (рисунок 1), в котором один СВК находится в состоянии технологического отказа, однако при этом сохраняется определенный объем емкости узла т.к. оставшееся количество работоспособных СВК способно обслужить пользовательские запросы.

zabbix_1

Рисунок 1. Процессинговый узел состоящий из четырех СВК

Если один из СВК выходит из строя, то рабочие СВК дополнительно получат дополнительную нагрузку V (1):

V=C/n (1)

, где

n - количество СВК в заданном процессинговый узле.

Учитывая вышеизложенное, получаем математическое выражение неравенства (2) и результат вычисления (3):

C + V < T (2)

C <75% * T (3)

, где

T — это общее доступное количество процессингового ресурса на каждом узле.

C — это используемое количество ресурса на СВК, в момент времени. Причем C не должен превышать некоторого порогового значения, чтобы держать процессинговый ресурс в резерве в случае, если один из СВК выйдет из строя и нагрузка перераспределится между оставшимися в рабочем состоянии СВК.

Следовательно, на каждом СВК доступная вычислительная нагрузка и пропускная способность не должна превышать 75% от максимально доступной емкости для того, чтобы иметь возможность обрабатывать вызовы в процессинговом узле, без деградации качества обслуживания, в случае, если один из СВК в группе будет недоступен. Для это, в ходе эксперимента, были заданы пороговые значения для генерации сообщений в системе мониторинга ГРВК: Критическое (англ. Critical) - 75%, и предупреждение (англ. Warning) - 60% (рисунок 2).

zabbix_2

Рисунок 2. Рабочая модель емкости СВК

Используя Zabbix, запишем выражение вычисления использования ресурсов СВК роль процессора трафика пакетов RTP (англ. Real-time transport protocol) [5] в процентном соотношении:

{

"denominator": ,

"formula": "usage",

"metric_key": ,

"metric_name": ,

"trigger": [

{

severity: "warning",

threshold: "C-15%"

}

{

severity: "critical",

threshold: "C"

}

]

"terms": [

{

"host": ,

"metric": "webRTC[]"

}

]

}

Далее необходимо создать методику мониторинга для верхе-уровневой схемы объединения процессинговых узлов в единый ГРВК с учетом емкости каналов передачи пакетов на TG (англ. Trunk Group) [6] рис.3

zabbix_3

Рисунок 3. Рабочая схема присоединения ГРВК к PSTN с точки зрения TG

В этом случае в ГРВК все группы соединительных линий на стороне процессинговых узлов RTP_n имеют такое же ограничение одновременных вызовов, которое имеет на своей стороне PSTN (англ. Public Switched Telephone Network) [7-9]. В большинстве случаев в ГРВК есть ограничение на количество одновременных вызовов (англ. Connection Limit) для групп соединительных линий для конкретной TG оператора связи в конкретном регионе. Соответственно, для мониторинга емкости узлов RTP_n для отслеживания лимитов трафика пакетов в одной TG было предложено использовать следующее в выражение Zabbix:

{

terms: [

{

host: ,

metric: "webRTC[]",

}

]

metric_name: ,

metric_key: ,

formula: "usage",

denominator: {

host: ,

metric: "webRTC[]",

}

trigger: [

{

severity: "critical",

threshold: "X",

}

{

severity: "warning",

threshold: "0,8*X",

}

]

}

Трафик приходящий от операторов PSNT распределяется в ГРВК между двумя подмножеством процессинговых узлов RTP_n и соответствующими TG, используемыми для обработки трафика пакетов (рис.4).

zabbix_4

Рисунок 4. Рабочая схема присоединения ГРВК к PSTN с точки зрения лимитов соединений

Для осуществления мониторинга полной загрузки соединительных линий оператора PSTN, было предложено, при помощи выражения Zabbix, сравнить общее количество одновременных вызовов соответствующих групп соединительных линий к узлам RTP_n с лимитом соединительных линий оператора связи для того, чтобы вычислить процент использования группы соединительных линии от оператора PSTN:

{

"metric_name": ,

"metric_key": ,

"formula": "comparison"

"terms": [

{

"host": <RTP_1>,

"metric": "webRTC[<RTP_1 API term metric>]"

},

{

"host": < RTP_1>,

"metric": "webRTC[<RTP_2 API term metric>]"

},

{

"host": ,

"metric": "webRTC[<RTP_N API term metric>]"

}

]

"denominator": {

"host": <RTP_1>,

"metric": "webRTC[<RTP_1 API denominator metric>]"

}

}

Заключение

В ходе проведения исследования были решены следующие научные задачи:

1. Визуализация на графическом интерфейсе текущего состояние ИС для отслеживания использования емкости процессинговых узлов;

2. Создание математической модели автоматического масштабирования СВК в публичном вычислительном облаке, с дальнейшей практической реализацией инициализации развертывания и сворачивания необходимых вычислительных компонент из эксплуатации;

3. Модернизация методики оценки влияния сбоя в одном или группе элементов ИС на ГРВК в целом;

4. Модернизация методики превентивной оценки и решения проблем с пропускной способностью в ИС.

Разработка, практическая реализация и внедрение новой модели мониторинга емкости процессинговых узлов основанной на Zabbix в международной инфокоммуникационной компании RingCentral, осуществляющей производственную деятельность в облачной ГРВК, обеспечили визуализацию событий происходящих в вычислительных элементах обслуживающих глобально распределенные информационные сервисы в режиме реального времени. Использование новой модели мониторинга повысило эффективность использования ресурсов ГРВК и сократило время и затраты на развертывание дополнительных СВК с целью недопущения перерывов работоспособности предоставляемых UCaaS сервисов, что стало предопределяющим условием обеспечения пользователей бесперебойными услугами видео и голосовой связи в условиях мировой санитарно-эпидемиологической пандемии коронавируса.

References
1. Shchemelinin D.A. — Metodika sozdaniya raspredelennoi komp'yuterno-vychislitel'noi sistemy dlya programmnogo infokommunikatsionnogo kommutatora // Programmnye sistemy i vychislitel'nye metody. – 2019. – № 1. – S. 91 - 97. DOI: 10.7256/2454-0714.2019.1.28782 URL: https://nbpublish.com/library_read_article.php?id=28782
2. Ofitsial'nyi Internet-sait RingCentral [Elektronnyi resurs]. URL: http://www.ringcentral.com/
3. Zabbix Enterprise-class Monitoring System, [Elektronnyi resurs] // Rezhim dostupa: http://www.zabbix.com
4. Shchemelinin D.A. — Metodika upravleniya konfiguratsionnymi parametrami, programmnymi artefaktami i metrikami sostoyaniya vychislitel'nykh komponent v global'no raspredelennykh oblachnykh informatsionnykh kompleksakh // Programmnye sistemy i vychislitel'nye metody. – 2019. – № 1. – S. 98-106. DOI: 10.7256/2454-0714.2019.1.29757 URL: https://nbpublish.com/library_read_article.php?id=29757
5. Zurawski, Richard. — RTP, RTCP and RTSP protocols // The industrial information technology handbook. CRC Press. (2004) pp. 28–7. ISBN 978-0-8493-1985-3
6. Flood, J. E. — Telecommunications Traffic // Telecommunications Switching, Traffic and Networks. New York. (1998) Prentice-Hall. ISBN 0130333093
7. G.P. Basharin, A.D. Kharkevich, M.A. Shneps-Shneppe. — Massovoe obsluzhivanie v telefonii. — M.: Nauka, 1968. — 246 s
8. Gol'dshtein B. S. — Signalizatsiya v setyakh svyazi. Tom 1. — 4e izdanie — SPb.:BKhV-Peterburg, 2014. — 448 s. ISBN 5-8206-0116-5
9. Gol'dshtein B. S. — Protokoly seti dostupa. Tom 2. — M.: Radioisvyaz', 1999. — 317 s. ISBN 5-256-01476-5