Подготовка данных
Для обработки загруженных в Madd данных используется объект типа ETL-флоу.
ETL-флоу
ETL-флоу - это последовательность узлов обработки данных. ETL-флоу отображается в виде графа, вершинами которого являются узлы обработки данных.
ETL-флоу позволяет:
- настроить фильтрацию данных;
- очистить данные от дубликатов;
- нормализовать данные;
- объединить источники (реляционная операция объединения UNION);
- совместить источники (реляционная операция совмещения JOIN);
- обогатить данные с помощью ручного ввода и создания динамических полей;
- классифицировать данные при помощи нейросетей;
- выгрузить данные в аналитическое хранилище или внешнюю БД.
Узлы ETL-флоу делятся на 4 типа:
- трансформация
Узел трансформации отвечает за фильтрацию данных, управление типами (текст, число, дата, время, координаты), управление наименованиями и формирование расчетных значений
- совмещение
Узел совмещения отвечает за объединение двух таблиц при помощи реляционной операции JOIN.
- объединение
Узел объединения отвечает за дополнения таблицы, одной или несколькими другими таблицами при помощи реляционной операции UNION.
- вывод
Узел вывода позволяет выгрузить обработанные данные во внешние БД, в локальный файл или в хранилище madd для последующей визуализации.
Пример интерфейса ETL-флоу приведен на рисунке ниже:
По нажатию на узел отображается набор обрабатываемых полей.
Применение
Для формирования графа преобразования данных нужно:
- Cоздать объект типа ETL-flow:
- Клик правой кнопкой мыши по произвольной папке, для появления контекстного меню
- В контекстном меню выбрать “ETL-флоу”
- Cоздать узел трансформации на основе существующего источника
- Развернуть существующий объект типа Источник
- Перетащить одну из таблиц источника в рабочую область ETL-flow
- Или создать узел трансформации на основе локального файла
- перетащить в рабочую область ETL-flow локальный файл (например этот) формата CSV/JSON/XML/XLSX
Нажать на созданный узел трансформации
Добавить узлы по нажатию на кнопки в верхней части экрана
Для узлов типа трансформация, совмещение и объединение предусмотрен инструмент фильтрации по нажатию на кнопку . В появившемся окне нужно ввести правило фильтрации: логическое выражение, позволяющее определить область значений поля.
Правило фильтрации
Название поля должно быть в кавычках, строковые значения должны указываться в апострофах, знак равенства должен вводиться в формате ==, нестрогие неравенства должны вводиться в формате >= и <=.
Пример использования
ETL-флоу можно использовать в следующем случае: есть таблица, содержащая данные по закупкам в Санкт-Петербурге в xlsx файле на устройстве пользователя. Требуется оставить данные только по Адмиралтейскому району и вывести их в аналитическое хранилище. Для этого нужно создать ETL-флоу, переместить в рабочую область локальный файл, добавить узел типа трансформация, ввести правило фильтрации ("Район"=='Адмиралтейский'), добавить узел типа вывод и выгрузить данные в аналитическое хранилище.