DX Operational Intelligence - Интеграционная платформа мониторинга инфраструктуры

Автоматизация и корреляция аналитических данных в гибридных IT-средах

Перед вашими IT-отделами стоит задача по управлению средами, которые с каждым днем становятся все более эфемерными, модульными и изменчивыми. С помощью DX Operational Intelligence ваши команды могут эффективно управлять сегодняшними сложными корпоративными средами, постоянно обеспечивать превосходное взаимодействие с пользователем и быстро добиваться значительного повышения эффективности работы.

DX Operational Intelligence — это решение AIOps, основанное на машинном обучении, которое обеспечивает наиболее полную аналитику услуг, анализируя разнообразные структурированные и неструктурированные источники данных, которые могут варьироваться от облака до мэйнфрейма. Решение генерирует действенные прогнозные данные путем приема и анализа различных наборов данных, включая метрики, топологию, текст и данные журналов. С помощью этого решения ваши IT-специалисты могут гораздо раньше отреагировать на потенциальные проблемы, быстрее выявить реальную первопричину и в конечном итоге устранить проблемы, прежде чем они повлияют на бизнес.

Управляйте интеллектуальными и быстрыми ИТ-операциями за счет алгоритмического анализа.

IT-организации и поставщики услуг сегодня получают избыточный поток сообщений от различных инструментов управления и мониторинга и тратят много ценного времени на устранения дублирований, неоднозначностей и выявление корневых причин возникающих проблем.

Решение Digital Operational Intelligence основано на версии стека ELK с открытым исходным кодом (Elasticsearch, Logstash и Kibana). Это простой и прямой способ агрегирования больших объемов данных, позволяющий сопоставлять события, метрики и данные журналов из разнообразных источников.

Ссылки на видеоматериалы на английском языке:
Демонстрация использования аналитики производительности
Демонстрация использования аналитики сигналов оповещения
Демонстрация использования аналитики сервисов

Обзор архитектуры

Как можно видеть из приведенной ниже схемы архитектуры решения CA Digital Operational Intelligence, оно имеет три уровня:

Платформа CA Agile Operations Analytics, основанная на стеке ELK, поверх которого добавлена система CA Jarvis.
Уровень сбора данных, который сочетает в себе, как безагентный сбор, особенно для сетевых устройств, так и сбор на основе агентов CA UIM, а также события и показатели производительности из различных продуктов CA Agile Operations. Метрики, события и данные журналов от сторонних инструментов также могут быть направлены и обрабтаны в решении через защищенные Rest API платформы Jarvis.
Уровень мониторинга.

Давайте теперь погрузимся в детали каждого из этих компонентов и как они повышают ценность по сравнению с «голым» стеком ElasticSearch, дополненным X-Pack.

ELK и Jarvis

Если вы рассматриваете версию ELK с открытым исходным кодом, ее самым важным недостатком является то, что отсутствует функционал управления доступом на основе ролей (Role Based Access Control — RBAC). Практически любой пользователь является администратором и может выполнять любые операции на платформе. Это также касается и API, в котором не реализовано никаких функций безопасности. Эта ситуация немного исправляется, когда вы покупаете коммерческую версию с X-Pack, который добавляет, среди прочего, и RBAC. Однако, когда вы рассматриваете реализацию такого решения на крупном предприятии, учитывая тот факт, что возможно существует несколько организаций, объединяющих многослойную группу пользователей, потенциально работающих в нескольких юрисдикциях, единственное решение, которое вы можете использовать в этом случае, это разделение по каждой организации, то есть умножение количество ELK “data-lakes”, которые вы развертываете (практически, по одному для каждой организации). В отличие от этого, платформа CA Agile Operations добавляет в ELK полную мультитенантность, что позволяет развернуть единое data-lake, которое можно контролировать и эксплуатировать на уровне группы организаций, одновременно обеспечивая возможность для каждого субъекта работать на своих данных независимо. Это приводит к существенной экономии на стоимости необходимого оборудования, снижению затрат на обслуживание и, в итоге, к более низкой общей стоимости владения решением.

Еще одним преимуществом платформы Jarvis является то, что она обеспечивает автоматизированное управление сегментами и индексами внутри ElasticSearch, что также является существенным бременем для администраторов ElasticSearch.

И наконец, платформа CA Agile Operations предоставляет в ваше распоряжение набор аутентифицированных, защищенных API для запроса данных.

Безагентский сбор системных журналов

Сбор журналов без агентов достигается путем простого перенаправления TCP-сообщений (опционально TLS) системного журнала и журнала событий на сборщик журналов, входящий в состав системы. Эти сообщения затем обрабатываются анализатором журналов и сохраняются в ElasticSearch.

Сбор системных журналов с помощью агентов

Для сбора журналов с помощью агентов в CA Digital Operational Intelligence используется функционал CA UIM. CA UIM — это решение для мониторинга и управления производительностью систем и приложений, которое использует концепцию Зондов (Probes), т.е. небольших программных модулей, разработанных для мониторинга конкретных технологии. Зонды могут быть либо удаленными (для систем, которые не могут быть промониторены с помощью агентов, такие как гипервизоры VMWare, массивы хранения данных SAN или NAS и т. д.), либо локальными (которые в основном нас и интересуют в этом конкретном контексте).

Сами Зонды управляются компонентом, называемым Роботом (robot), основными задачами которого являются:

управлять Зондами и назначать им набор событий и метрик, которые необходимо собирать;
реализовать механизм хранения и пересылки для того, чтобы события и метрики хранились локально компонентом, называемым Диспетчер очереди (spooler), а в случае сбоя сети, препятствующего отправке этих данных на сервер CA UIM;
опционально, для выполнения обнаружения приложений, после их инсталляции, чтобы определить, какие приложения запущены в системе, на которой установлен Робот, и по результатам этого обнаружения, автоматически помещать эту систему в соответствующие группы приложений (банальным примером может быть: робот обнаружил, что процесс apache2 запущен на том же сервере, где был установлен сам Робот, и на основании этого, поместил этот сервер в группу серверов Apache на сервере CA UIM).

Как же всё сказанное выше помогает решению CA Digital Operational Intelligence отличаться от ELK, дополненного X-Pack?

В CA UIM реализована концепция групп. Это статические или динамические контейнеры, которые могут формироваться на основе любых системных атрибутов. Группы могут использоваться, чтобы представить конкретную технологию (группа серверов Apache, группа серверов Oracle…), по разным регионам (группа Москва, группа Калининград…), по бизнес направлениями или по бизнес приложениям (группа ERP-систем…). Этот механизм группировки позволяет легко идентифицировать «горячие точки», но, что более важно, настроить распределение и конфигурацию Зондов в пакетном режиме, например, Зондов, ответственных за сбор файлов журналов приложений.

В настоящее время поддерживаются следующие типы журналов:

Apache Access
Apache Error
Docker
IIS
Java Application Logs (Log4j)
Oracle (Alert Logs and Audit Logs)
SQL Server (Event Logs and Audit Logs)
Tomcat Access
Tomcat Catalina
NGINX access Logs
Mainframe zOS Syslog
AWS Cloudtrail Logs

В верхней части этого списка поддерживаемых типов журналов, перечислены журналы общего типа и CA планирует расширить этот список.

Ниже приведен снимок экрана, на котором видно, как служба мониторинга конфигурации определена, как группа для журналов серверов Apache.

В отличие от этого, ElasticSearch не предоставляет никакого механизма для настройки и разумного распределения процессов сбора журналов, что приводит к большим затратам рабочего времени администраторов на параметризацию коллекторов журналов.

Также СА добавило необходимую логику синтаксического анализа и преобразования, чтобы превратить необработанные данные из журналов в структурированные данные. В отличие от этого, если заказчик решит внедрить непосредственно коммерческую версию ElasticSearch, то эти задачи должны быть выполнены самостоятельно, что требует специальных знаний и может занять много времени.

Портфель продуктов CA Agile Operations

Как уже упоминалось в предыдущем разделе, посвященном обзору архитектуры, и как видно из схемы общей архитектуры, СА не только предоставляет функционал сбора журналов без агентов и автоматизированный сбор журналов на базе агентов, но и обрабатывает поток данных инвентаризации, событий и показателей производительности из различных решений, которые составляют портфель продуктов CA Agile Operations. Это позволяет добавлять к отдельным записям журналов в вашем “data-lake” данные, поступающие из CA Spectrum, CA Performance Management, CA Network Flow Analysis, CA Application Delivery Analysis, а также CA App Experience Analytics. В настоящее время СА предпринимает усилия по реализации такой же возможности для CA Application Performance Management.

Таким образом, можно легко создать целостное “data-lake” для всех операций, охватывающее все элементы инфраструктуры, приложений, микро-сервисов и мобильных приложений. Мы действительно полагаем, что СА — единственный поставщик подобного программного обеспечения на рынке, который в состоянии обеспечить такую возможность.

Мониторинг и Обнаружение аномалий

В дополнение к стандартным функциям мониторинга CA UIM (который обеспечивает охват более чем 150 технологий, начиная от мейнфрейма до частных и публичных облачных платформ, таких как AWS или Microsoft Azure), мы разработали специальный Зонд, который постоянно сканирует “data-lake”, которое СА построило, и может выдавать сигналы тревоги на основе настраиваемых шаблонов. Тривиальным примером такого шаблона может быть “более N случаев отказа в доступе в журнале apache для сервера X за последние M минут”. В качестве будущего направления СА работает над внедрением новых алгоритмов машинного обучения и искусственного интеллекта, чтобы обеспечить более продвинутые возможности оповещения.

Примерами использования могут быть:

Агрегирование информации по различным инструментам CA и создание такой аналитики, как например, самые проблемные устройства, устройства с наибольшим количеством сигналов тревоги, группы, имеющие проблемы и так далее.

Клиент имеет сигнал из Spectrum, сигнал из PM и сигнал из системного журнала для одного устройства, показывающие похожие проблемы, DOI способен идентифицировать шаблон (предопределенный Kibana запрос) и на основании этого генерирует инцидент в CA Service Desk Manager.

Используя информацию из инструментов CA, в DOI обеспечивается высокая степень корреляции, с зоной охвата масштаба предприятия со всеми филиалами.

Приложения и будущие направления

Готовые панели мониторинга

Для каждого типа журнала, описанного выше, СА предоставляет готовые к использованию панели мониторинга, которые экономят время и сразу предоставляют внятную картину состояния IT инфраструктуры. Набор этих панелей мониторинга постоянно расширяется, вместе с набором типов журналов и типов данных, которые могут передаваться в потоковом режиме внутри платформы.

Интеграция с CA APM

Цель здесь состоит в том, чтобы перенаправить в платформу CA Agile Operations Analytics данные о транзакциях и производительности из CA APM. Хотя эта работа в настоящее время находится в стадии разработки и тестирования, планируется завершить ее в ближайшее время.

Таким образом, ключевым здесь будет достижение автоматической корреляции между данными о производительности приложении, данными о транзакциях и данными об инфраструктуре, в сочетании с другой операционной информацией.

Например, клиент получает информацию о ”медленной» или ”сокращенной“ транзакции из APM (или какого-либо другого инструмента) и это коррелируется с операционными данными, которые показывают (как видно на картинках ниже), что во время ”медленной» транзакции наблюдалась высокая загрузка CPU и увеличение использования памяти на кластере VM, на котором крутится этот сервис.

Прогнозирование потребности в ресурсах

Capacity Predictive Analytics — это решение для управления потребностью в ресурсах, которое использует CA Digital Operational Intelligence для сбора метрических данных и предоставления отчетов с прогнозом потребности в ресурсах. Возможности сбора данных упрощены и расширены, по сравнению с предыдущим решением CA Capacity Management. Решение поддерживает и включает автоматическое сопоставление устройств с моделями оборудования, устраняя необходимость в сложных и подверженных ошибкам ручных сопоставлениях имеющихся на предприятии устройств с моделями оборудования на рынке. Панели мониторинга работают динамически для облегчения идентификации проблем, позволяя прогрессивное раскрытие и анализ данных.

Благодаря Capacity Predictive Analytics пользователи получают доступ к критически важным сведениям и возможностям управления потребностью в ресурсах, таким как:

Сокращение капитальных затрат на новые физические серверы и устройства
Снижение эксплуатационных затрат, связанных с покупкой лицензий на серверное ПО, электроэнергию, аренду помещений, техобслуживание и зарплату
Определение возможностей для консолидации, виртуализации или перемещение в облако с целью максимизации рентабельности инвестиций и использования IT-активов
Точное определение будущих потребностей в рабочей нагрузке и удовлетворение переменных потребностей для достижения точного соблюдения SLA
Избежать дорогостоящих простоев за счет упреждающего планирования потребности в ресурсах.

Заключение

Мы надеемся, что краткая информация, приведенная в этом документе, поможет будущему пользователю лучше понять CA Digital Operational Intelligence и то, чем он отличается от того, что предлогает Elastic. СА использовало свой опыт в автоматизации управления IT сетями, системами и приложениями для привлечения новых аналитических возможностей, которые могут быть предложены современными инструментами, такими как ElasticSearch, для построения дифференцированного подхода к аналитике в контексте IT операций, в интеграции с портфелем продуктов СА, и с возможностью приема данных от сторонних систем и, поэтому, предоставляет гораздо больше преимуществ и более высокий уровень автоматизации, чем то, что предлагает ElasticSearch. Это дает следующие преимущества:

Ускоренное внедрение и ввод в промышленную эксплуатацию
Снижение затрат на обслуживание и общую стоимость владения
Повышение общей ценности решения благодаря встроенной поддержке различных сложных вариантов использования

В качестве заключительного аккорда к этому документу, мы хотели бы поделиться с заинтересованными будущими пользователями, таблицей сравнения этих двух решений:

Возможности	CA Digital Operational Intelligence	ElasticSearch
Автоматизированное управление сегментами (Shards) и индексами	Да	Нет
Мультитенантность, позволяющая удовлетворить уникальные потребности Заказчика	Да	Нет
Защищенный, аутентифицированный API	Да	Частично да
Предопределенное маппирование полей и анализаторы	Да	Нет
Автоматическое развертывание слоя сбора журналов и мониторинга на основе соответствующего набора пороговых значений	Да	Нет
Соответствующий набор готовых панелей мониторинга kibana для каждого события, метрики, типа журнала	Да	Нет
Приложения с добавленной стоимостью, такие как Предиктивный Анализ Потребностей в рессурсах, интеграция данных CA APM	Да	Нет