ШАГ 2

Источники и модель данных

ЗАГРУЗКА ДАННЫХ

Платформа VISIOLOGY поддерживает работу одновременно с несколькими источниками данных, подключая которые, можно создавать сложные схемы данных.

В этом шаге мы рассмотрим интерфейс базы данных ViQube и основные принципы работы с ним, а также - разберемся с понятием OLAP и настройкой многомерного представления.

ОСНОВНЫЕ ИСТОЧНИКИ ДАННЫХ ДЛЯ VIQUBE:

SQL - запрос
CSV - файл
Excel - файл
Также альтернативными источниками данных может служить компонент SmartForms и API БД ViQube. О них я расскажу в других уроках.
ViTalk
Виртуальный ассистент

СОЗДАНИЕ ЗАГРУЗЧИКА

После того, как Вы определились с источниками данных, необходимо создать и настроить Загрузчики, для этого:

Создание загрузчика
Откройте настройки интерфейса БД ViQube

Раскройте настройки "Базы данных"

Выберите элемент "Загрузчики"

Нажмите кнопку "Добавить загрузчик"

Введите имя для загрузчика

Далее приступаем к настройке источника данных:

Выберите тип загрузчика

Укажите корректные настройки для загрузчика

Нажмите кнопку "Сохранить настройки"
Выбор типа загрузчика
* Для каждого из типов загрузчиков есть свой набор настроек.

НАСТРОЙКИ ТИПА ЗАГРУЗЧИКОВ

Каждый из загрузчиков содержит в настройках свои уникальные параметры. Рассмотрим каждый из них:
  • SQL
    Для работы с загрузчиком типа SQL вам необходимо будет предварительно создать "SQL- подключение" к внешней базе, затем выбрать его в списке подключений. Далее напишите SQL-запрос, результат выполнения которого будет таблица, которая загрузится в БД ViQube
  • CSV
    Источником данных для такого загрузчика будет текстовый файл формата CSV. Для корректной загрузки таких файлов важно знать логическую структуру исходного файла, чтобы верно указать символы-ограничители колонок и строк.
  • Excel
    Если источником данных является Excel таблица, то для корректной загрузки информация должна храниться на первом листе загружаемого файла.

    Важно точно определить, что будет источником для загрузки данных.

МНОГОМЕРНАЯ МОДЕЛЬ ДАННЫХ

Следующим этапом является создание многомерной модели данных для упорядочения данных в БД, а также хорошей компоновки и связи в многомерной структуре.

Перед тем как приступить к настройке - немного теории.
OLAP (online analytical processing) — это оперативный анализ данных.

Давайте попробуем определить это понятие на человеческом языке.

OLAP база данных опирается на многомерную модель данных, то есть такая база позволяет анализировать множество разных параметров с разных сторон. Также она обрабатывает многомерные массивы данных, то есть такие, в которых каждый элемент массива связан с другими элементами.

Поэтому OLAP позволяет строить гипотезы, выявлять причинно-следственные связи между разными параметрами, моделировать поведение системы при изменениях.

Данные при этом организованы в виде многомерных кубов — осями будут отслеживаемые параметры, на их пересечении находятся данные. Пользователи могут выбирать нужные параметры и получать информацию по разным измерениям.
OLAP куб меры измерения
Структура OLAP-куба
Многомерная модель данных, это альтернатива обычной табличной или "реляционной" модели.

Сводные таблицы ("pivot tables") Excel построены именно на многомерной логике. Идея модели заключается в разделении данных на показатели (или "меры") и измерения (аналог справочников). По показателям мы агрегируем (например, считаем сумму или среднее), а по измерениям группируем или фильтруем.
Важным этапом будет то, какой вид имеют загружаемые таблицы. Таблицы для создания многомерного представления бывают двух типов:
  • Таблица фактов
    Таблица, содержащая в себе количественные и качественные данные о событии факта, которым в свою очередь является строка в виде записи в таблице. Проще говоря, это таблица, которая содержит столбцы, данные которых мы можем посчитать/агрегировать.
  • Таблица справочников
    Таблица, содержащая качественную информацию, на которую могут ссылаться значения из столбцов в таблице фактов.
Многомерная модель данных в платформе содержит следующие элементы:

  • Группа показателей
    Элемент, логически объединяющий показатели и измерения в единую структуру.
  • Показатель
    Элемент, отвечающий за количественные данные факта, которые возможно сагрегировать по выбранной функции агрегации.
  • Измерение
    Элемент, отвечающий за качественную характеристику, совершенную над фактом.
Важно помнить, что платформа VISIOLOGY поддерживает объединение многомерной модели данных по типу "Звезда".
ViTalk
Виртуальный ассистент

НАСТРОЙКА МНОГОМЕРНОЙ МОДЕЛИ

Настройка модели данных
Последний этап в данном шаге - это настройка многомерной модели в БД ViQube.

Ранее мы говорили о создании "Загрузчиков" и понятии OLAP. Теперь же нам предстоит объединить эти знания.
Вернёмся в интерфейс загрузчика и выберем кнопку «Настроить структуру».
Перед вами откроется интерфейс настроек многомерной структуры (модели данных).
Настройка модели данных превью таблицы
Прежде чем приступить к мэппингу, проверьте корректность настроек по чек-листу ниже.
ViTalk
Виртуальный ассистент

ЧЕК-ЛИСТ ПРОВЕРКИ НАСТРОЕК

✔ Проверить типы данных;
✔ Проверить маску даты для колонки с датой;
✔ Определить тип таблицы (фактов/справочник).
После проверки настроек по данному чек-листу можем продолжить.

Если таблица является "Таблицей фактов", то для нее необходимо создать группу показателей, для этого:
Имя OLAP куба группы показателей
Нажмите кнопку "Добавить".

В выпадающем меню выберите
пункт "Группа показателей".

Введите название для группы
показателей.
Теперь можно приступить к настройке столбцов.

Рекомендуем начинать со столбцов, которые можно определить как показатели, далее - разметить столбцы, содержащие дату, и в самом конце - определять столбцы как атрибуты измерения.
Чтобы было проще запомнить, я пользуюсь алгоритмом "цифры - дата - текст".
ViTalk
Виртуальный ассистент
Чтобы определить столбец как показатель, необходимо:

Настройка показателей в olap кубе
Нажмите на перечеркнутый круг в заголовке столбца

В выпадающем меню выберите пункт "Показатели"

Выберите функцию агрегации
На данном этапе необходимо выбрать и определить функцию агрегации по умолчанию. В дальнейшей работе её без труда можно будет изменить.
ViTalk
Виртуальный ассистент

Для определения столбца "Дата" к системному календарному измерению выполните следующие пункты:

Настройка даты в olap кубе
Нажмите на перечеркнутый круг в заголовке столбца

В выпадающем меню выберите пункт "Дата"

Выберите подходящую детализацию данных
Помните, что календарное измерение является системным, платформа сама создаст нужную иерархию :)
ViTalk
Виртуальный ассистент

Для определения столбца как атрибут измерения выполните следующие пункты:

Нажмите на перечеркнутый круг в заголовке столбца.
Создать измерение в olap кубе
Добавить измерение в olap кубе
Выберите "Создать новое" для случая, если такого измерения в системе нет, либо "Выбрать существующие", если хотите привязать данные к существующему измерению.
В выпадающем меню выберите пункт "Измерение"
При помощи "Общего измерения" вы можете объединять различные источники данных, что потом поможет вам совмещать эти источники на одной визуализации.
ViTalk
Виртуальный ассистент

Мы также записали на тему этого урока видео, посмотреть его можно на нашем официальном Youtube-канале.

Таким образом, когда у нас появилось понимание, каким образом должна выглядеть многомерная структура, приступим к выполнению первого практического задания.

Если у Вас появились вопросы - напишите нам.
Нажимая на кнопку "Отправить", вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности.