Skip to main content

Подготовка данных

Для обработки загруженных в Madd данных используется объект типа ETL-флоу.

ETL-флоу

ETL-флоу - это последовательность узлов обработки данных. ETL-флоу отображается в виде графа, вершинами которого являются узлы обработки данных.

ETL-флоу позволяет:

  • настроить фильтрацию данных;
  • очистить данные от дубликатов;
  • нормализовать данные;
  • объединить источники (реляционная операция объединения UNION);
  • совместить источники (реляционная операция совмещения JOIN);
  • обогатить данные с помощью ручного ввода и создания динамических полей;
  • классифицировать данные при помощи нейросетей;
  • выгрузить данные в аналитическое хранилище или внешнюю БД.
Узлы ETL-флоу делятся на 4 типа:

- трансформация

Узел трансформации отвечает за фильтрацию данных, управление типами (текст, число, дата, время, координаты), управление наименованиями и формирование расчетных значений

- совмещение

Узел совмещения отвечает за объединение двух таблиц при помощи реляционной операции JOIN.

- объединение

Узел объединения отвечает за дополнения таблицы, одной или несколькими другими таблицами при помощи реляционной операции UNION.

- вывод

Узел вывода позволяет выгрузить обработанные данные во внешние БД, в локальный файл или в хранилище madd для последующей визуализации.

Пример интерфейса ETL-флоу приведен на рисунке ниже: MADD interface

По нажатию на узел отображается набор обрабатываемых полей.

MADD interface

Применение

Для формирования графа преобразования данных нужно:

  • Cоздать объект типа ETL-flow:
    • Клик правой кнопкой мыши по произвольной папке, для появления контекстного меню
    • В контекстном меню выбрать “ETL-флоу”

MADD interface

  • Cоздать узел трансформации на основе существующего источника
    • Развернуть существующий объект типа Источник
    • Перетащить одну из таблиц источника в рабочую область ETL-flow

MADD interface

  • Или создать узел трансформации на основе локального файла
    • перетащить в рабочую область ETL-flow локальный файл (например этот) формата CSV/JSON/XML/XLSX

MADD interface

  • Нажать на созданный узел трансформации

  • Добавить узлы по нажатию на кнопки в верхней части экрана

Для узлов типа трансформация, совмещение и объединение предусмотрен инструмент фильтрации по нажатию на кнопку MADD interface. В появившемся окне нужно ввести правило фильтрации: логическое выражение, позволяющее определить область значений поля.

Правило фильтрации

Название поля должно быть в кавычках, строковые значения должны указываться в апострофах, знак равенства должен вводиться в формате ‎==, нестрогие неравенства должны вводиться в формате‎ ‎>= и <=.

MADD interface

Пример использования

ETL-флоу можно использовать в следующем случае: есть таблица, содержащая данные по закупкам в Санкт-Петербурге в xlsx файле на устройстве пользователя. Требуется оставить данные только по Адмиралтейскому району и вывести их в аналитическое хранилище. Для этого нужно создать ETL-флоу, переместить в рабочую область локальный файл, добавить узел типа трансформация, ввести правило фильтрации ("Район"=='Адмиралтейский'), добавить узел типа вывод и выгрузить данные в аналитическое хранилище.