-- StanislavKaul - 19 Dec 2024 ---+ Мониторинг узлов Суперкомпьютера МГУ-270 https://atlas.mindmup.com/2024/12/32cf3eb0bfea11efa5b51be9c7098623/_grafana/index.html
---++ Предварительная информация

В узлах Суперкомпьютера, а также во вспомогательном оборудовании (коммутаторах, СХД и т. п.) расположено множество всевозможных датчиков (температур CPU, скоростей вентиляторов, объёмов сетевого трафика между элементами узлов, загрузка GPU и т. п.). Каждые 15 секунд (интервал настроен по умолчанию) со всех датчиков снимаются значения и сохраняются в файле. Время хранения данных от 14 до 30 календарных дней (по умолчанию) и зависит от возможностей имеющегося оборудования и поставленных задач. Заметим здесь, что данные можно хранить годами.

Файл, где хранятся данные с датчиков, организован в виде тысяч параллельных информационных "ручейков" (показаний датчиков), равномерно-дискретно текущих по временнόй трубе (длина которой задаётся в файле конфигурации (например, 14 дней): данные каждые 15 секунд (по умолчанию) поступают в трубу, проходят вдоль неё в прошлое с 15-и секундным шагом, выходят с другого конца и исчезают. Время путешествия данных по трубе — это время их жизни в файле, в течение (или в течении) которого данные могут быть считаны все целиком или в нужном диапазоне времени (но в пределах этой трубы (этого файла)).

Для считывания данных можно использовать как программу Prometheus, так и другие программы, которые могут работать с такими данными. А для представления данных в нашем случае используется Grafana.

Эта программа позволяет структурировать данные и представлять их в графической или табличной форме. Есть и другие возможности программы, например отображение данных с привязкой их к географических координатам.

Таким образом: основное назначение Prometheus — сбор и хранение данных, а назначение Grafana — выбор нужных данных и наглядное представление этих данных в виде структурированной информации.

Для мониторинга функционирования Суперкомпьютера используется Grafana. Программа вызывается по ссылке через VPN-доступ (то есть, это, вообще говоря, Веб-интерфейс):

http://10.36.60.3:3000/d/kWEL_jYIk/uzly-2?orgId=1&from=now-30d&to=now&var-hostname=cn80&var-gpu=All

Именно с помощью этой программы формируется страница-интерфейс с информацией, которую мы будем называть Dashboard (приборная доска). Таких "досок" может быть сколько угодно много. Их можно выбирать из меню. На каждой из них может быть сколько угодно «приборов» — панелей, в которых информация представлена в нужном виде. Сами панели можно группировать в блоки и, при необходимости, скрывать их, или, наоборот, раскрывать.


Grafana. Пример

Предположим, нам нужно получить наглядное представление о средней за выбранный период потребляемой мощности по каждому узлу Суперкомпьютера. Это можно сделать разными способами. Но желательно, чтобы была возможность охватить одним взглядом состояние сразу всех узлов. Сделать это в виде таблицы можно, но не очень удобно. Таблица будет содержать по одной колонке на каждый узел. Если узлов 30, то это 30 колонок и одна строка. В каждой ячейке этой строки — значение мощности по данному узлу.

В Grafana есть десятки других представлений такой информации. Для решения нашей задачи мы выведем информацию (как числовую, так и визуальную) в виде группы «квадратиков», каждый из которых обозначает узел и его усреднённую за выбранный период времени потребляемую мощность, как на рисунке справа.

Здесь цвет квадратика соответствует энергии, потребляемой узлом. Два числа, например 67(51) обозначают номер узла и номер проекта, за которым закреплён узел, а число ниже — мощность узла в Ваттах.

Заметим, что задача заключалась в демонстрации усреднённой потребляемой мощности за выбранный период времени. Сам же период времени можно указать с помощью интерфейса. Для этого в верхнем правом углу веб-страницы есть поле для ввода диапазона времени (с различными опциями), как на рисунке справа:

Если же задача состоит в том, чтобы вывести не усреднённую информацию по мощности, а динамику за указанный период, то тогда можно вывести обычный график: по оси абсцисс время, по оси ординат значения мощности. Причём, интерфейс позволяет вывести один или несколько (или все) графики в одном окошке, как на рисунке справа:

Эти же значения можно вывести и в табличной форме (показана часть таблицы):
---

Grafana. Мониторинг Суперкомпьютера

Ниже последовательно перечислены панели, которые использются в Dashboard "Узлы2". Панели распределены по Вкладкам. Вкладка (в терминах Grafana — это "row (строка)") преставляет собой кликабельную полоску.

_Если последовательно кликать на нёе, то все панели, расположенные под ней до конца страницы или до следующей вкладки будут "схлопываться" или "раскрываться"._

Вкладка Данные по суперкомпьютеру

Вкладка содержит две панели

  • Сводные данные по энергопотреблению
  • Энергопотребление по узлам

_Все значения в этих двух панелях представлены за выбранный период времени. Обычно, данные представлены для всех 8-и GPU. Но предусмотрена возможность выбрать отдельные GPU. В этом случае будут подсчитаны данные с учётом того, что выбранные GPU одни и те же для всех узлов!_

Сводные данные по энергопотреблению

Данные (80шт.) об усреднённом количестве узлов, отдававших метрику.
Среднее значение количества видимых мониторингом узлов может быть НЕ целым числом. Это означает, что какие-то узлы не отдавали метрику или физически не работали в течение какого-то времени.
Данные (420Вт) о минимальном потреблении мощности по выбранным GPU (обычно выбраны все 8 GPU и выбор одинаковый для всех узлов) по всем (80-и) узлам.
Среднее за выбранный период времени значение мощности по выбранным GPU и по всем узлам.
Максимальное (3050Вт) за выбранный период времени значение мощности по выбранным GPU и по всем узлам.
Суммарное (75800Вт) значение мощности.
Общая потребляемая мощность всеми узлами (213000Вт) включая GPU

Минимальное потребление

Показано

Вкладка Общая информация узлам ВНЕ кластера

В этом разделе представлена информация по узлам ВНЕ кластера

Сводные данные по энергопотреблению узлов

Усреднённые значения энергопотребления по узлам

Усреднённые значения температур GPU

Работа с панелями, на которых отображена динамика значений, подробно объясняется в разделе "Работа с графиками"

Динамика энергопотребления GPU узлов

Динамика загрузки GPU узлов

Динамика температур GPU узлов

Вкладка Дополнительные панели по выбранному узлу

Эта вкладка частично повторяет вкладу по общей информации по узлам вне кластера, но панели этой вкладки дают подробную информцию по одному выбранному узлу

Номер узла

Суммарное энергопотребление выбранных GPU

Работа с панелями, на которых отображена динамика значений, подробно объясняется в разделе "Работа с графиками"

Динамика загрузки GPU

Динамика температур GPU

Таблица загрузки CPU и GPU и энергопотребление

Динамика загрузки ядер CPU_0 и CPU_1 (на каждый CPU отдельная панель)

Вкладка Таблица загрузки GPU по всем узлам ВНЕ кластера

Вкладка Расположение стоек

Grafana. Интерфейс

Интерфейс Grafana имеет "растяжимый" дизайн. Это значит, что при изменении размера окна браузера размеры панелей автоматически подстраиваются под новый размер окна браузера. Размеры панелей также зависят от разрешения монитора и его пропорций. Поэтому вид панелей зависит от размеров окна браузера и от настроек монитора. Некоторые панели такое могут изменять представление своего содержимого в зависимости от своих же размеров, которые, в свою очередь, зависят от размеров окна браузера и настроек монитора. Например, на рисунке панель загрузки CPU и GPU отображается "по горизонтали" (слева), а справа — "по вертикали".

На некоторых панелях выводится информация сразу по всем узлам или компьютерам, или другим устройствам. Например, динамика загрузки GPU разных узлов.

Постоянный инструментарий

Меню выбора

Постоянные элементы интерфейса

В верхней части экрана находится панель,

в которой можно выбрать:

нужный узел (в примере 68-й)

в выбранном узле нужные GPU (по умолчанию выбраны все GPU — All)

диапазон времени (в примере 2 дня от текущего момента)

частоту обновления данных (по умолчанию Off)

вид Dashboard (три режима)

Меню времени и обновления

Переменный инструментарий

Изменяемые элементы интерфейса

Линейки — скрыть/показать группу панелей

Панели

Панели

Управление размером и расположением
Другие возможности:
Справка по отображаемой информации
Окно на весь экран
Копирование данных в csv-файл
Просмотр кода запросов

Формы представления информации.

Графическая
Табличная
Фильтрация
Сортировка

Панель Grafana

Панель Grafana обычно содержит:

*

свое название (может быть и без названия);

*

кнопку «i» (вывод дополнительной информации о панели), при наведении на которую курсором мыши активизируется всплывающая подсказа. Кнопка расположена слева вверху;

*

кнопку вывода меню панели, при клике на которую выводится меню и далее по клику на

*

View — выводится панель на весь экран

*

Inspect:

Data —

Panel JSON —

*

содержательная часть

Работа с графиками

В Grafana предусмотрена возможность быстрого переключения отображения части информации на панелях, где есть графики и табличные данные.

1.

Чтобы посмотреть данные по одному узлу, наведите курсор мыши на его название и кликните. В панели отобразится только один набор данных (например, только один график).

Чтобы посмотреть данные по другому узлу, выполните пункт 1.

2.

Если нужно вывести данные одновременно по нескольким узам, сначала кликните мышкой на название одного узла, затем нажмите и, удерживая клавишу CTRL, кликайте (в произвольном порядке) на другие названия узлов и потом отпустите клавишу CTRL. На панели отобразятся несколько графиков. Обычно в таких случаях ось ординат автоматически масштабируется, чтобы уместить все графики с учётом максимальных и минимальных значений.

Чтобы вернуться к одному графику, кликните на соответствующее название узла.

3.

Для вывода всех данных одновременно, кликните на любое название узла и кликните ещё раз на него же: отобразятся данные по всем узлам.

Если теперь кликнуть на название любого узла, то отобразятся данные снова только по одному выбранному узлу.

4.

Саму панель можно увеличить до размеров окна браузера.

Для этого наведите курсор мыши на область нужной панели. В результате в правой части названия панели появится галочка или три вертикальных точки, или другое обозначение контекстного меню панели (зависит от версии Grafana).

Наведите курсор мышки на этот символ и кликните на него. В открывшемся меню кликните на пункт "View". Панель увеличится до размеров окна браузера. Чтобы вернуться в прежний режим просмотра, нажмите клавишу ESC.

Дополнительные возможности работы с данными, представленными на панели.

Внутри самой панели данные могут быть представлены в виде графиков с краткой информацией по графику (обычно, максимальное, минимальное, среднее значение и, может быть, текущее значение за период) обозначения которых соответствуют номеру узла или какому-то другому устройству. Эти данные организованы в колонки с заголовками. Сами заголовки являются интерактивными. Если кликнуть на один из них, то внутри панели информация отсортируется во возрастанию или убыванию, или вернётся в состояние по умолчанию. Изменение информации циклически меняется после клика мышкой на название колонки.

В панелях, где данные представлены в табличной форме, тоже можно выполнять сортировку. И дополнительно — фильтрацию по заданным критериям.

Topic revision: r7 - 24 Dec 2024, StanislavKaul
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding WikiCMC? Send feedback