Загрузка данных на платформу Visiology 3.X и настройка модели данных

Загрузка данных

Знакомство с Visiology 3.X

Начало работы с данными

Чтобы начать работать с данными и создавать дашборды, для начала необходимо эти данные загрузить. В этом разделе мы сделаем следующие шаги:

1

Загружаем таблицы

2

Определяем типы таблиц

3

Создаем модель данных

4

Настраиваем автообновление данных

Осуществляем загрузку всех необходимых таблиц, пользуясь любым удобным загрузчиком.

Решаем, какие таблицы будут таблицами-справочниками, а какие — таблицами фактов.

Графически связываем ключевые поля в таблицах. Направление связи от «справочника» к «факту». Повторяем, связывая все таблицы по схеме «Звезда» или «Созвездие».

Для данных, загруженных через JDBC, настраиваем автообновление данных с заданной периодичностью.

Источники данных

Перед тем как загрузить данные в платформу, нужно понять, в каком виде они у нас хранятся, и привести, если требуется, к подходящему формату. В первую очередь познакомимся со способами загрузки данных в Visiology.

Загрузка данных осуществляется через кнопку «Данные» в правом верхнем углу страницы. Вы можете выбрать отдельный способ загрузки для каждой таблицы.

Доступно четыре способа загрузки данных

JDBC

Загрузка из базы данных по протоколу JDBC

1

CSV

Загрузка CSV-файла в расширении UTF-8

2

Excel

Загрузка Excel-файла в расширении .xlsx

3

Сетевое хранилище

Загрузка файлов CSV и Excel с сетевого диска

4

Загрузка из Базы Данных

1

Выбрав JDBC-загрузчик, можно подключиться к базе данных, поддерживающей протокол JDBC, указав ее адрес, имя базы данных, а также логин и пароль или с помощью строки подключения. В поле «Название таблицы» вводится имя, которое вы хотите видеть, и модели данных для этой таблицы, а ниже должен находиться SQL-запрос.

Для начала необходимо настроить подключение к серверу, в блоке слева, для удобства можно переключиться на интерфейс строки. Далее, в блоках справа, указать название таблицы, которую необходимо загрузить, и написать текст запроса.

Интерфейс настройки данных при загрузке через протокол JDBC

К примеру SELECT * FROM <имя_таблицы>, чтобы загрузить все столбцы из таблицы с названием <имя_таблицы> в вашей базе данных.

⚠️ По синтаксису запроса он будет зависеть от БД, к которой вы подключаетесь. Платформа в данном случае выступает ретранслятором.

Таблицы, загруженные из базы данных, легко автоматически обновлять через выбранный промежуток времени, в отличие от файлов excel и csv, которые в случае изменения таблицы придется загружать вручную.

ViTalk GPT

Виртуальный ассистент

Загрузка файла CSV

2

Загрузка CSV-файлов поддерживается только в расширении UTF-8.

При использовании CSV-файлов необходимо указать разделитель и выбрать опцию отображения заголовков, если это необходимо.

После этого можно выбрать столбцы, которые вы хотите загрузить из файла. По умолчанию все столбцы отмечены галочкой, то есть готовы к загрузке.

Интерфейс настройки данных при загрузке из файла CSV

Слева от галочки находится отображение типа данных в столбце. В данном случае Visiology автоматически определила тип данных как Int64, или целочисленный тип данных.

При клике по типу данных появляется выпадающий список, и тип данных в столбце можно поменять.

Выпадающий список с типами данных

!

ABС Текст — строковый тип данных.
123 Целое число — 64-разрядное целочисленное значение (целое число).
1.2 Десятичное число с плавающей запятой — 64-разрядное число с плавающей запятой (десятичное число). Данный тип чисел обрабатывается быстрее и требует меньше памяти, но менее точен, чем десятичное число с фиксированной запятой. Его можно использовать при работе с крупным объемом данных в случаях, когда точностью можно пожертвовать в угоду скорости расчетов.
$ Десятичное число с фиксированной запятой — десятичный тип данных (Decimal128), обладающий повышенной точностью при вычислениях в сравнении с типом данных Float, округляемый до 4-ого знака после запятой и допускающий 34 цифры значения в целой части.
Дата и время — данные в формате дата-время в виде ГГГГ-ММ-ДД ЧЧ:ММ:СС.

Платформа поддерживает работу со следующими типами данных

Выбор между десятичными числами с плавающей и фиксированной запятой зависит от требуемой точности чисел и производительности.

Советую вам вовсе избегать автоматического приведения типов данных.

ViTalk GPT

Виртуальный ассистент

загрузка EXCEL

3

Загрузка Excel-файлов доступна только в формате .XLSX.
Окно загрузчика Excel-файлов очень похоже на окно загрузчика CSV-файлов.

В правой части интерфейса можно выбрать один или несколько листов, которые вы хотите загрузить на платформу.

В данном случае файл с именем «offer» имеет внутри лист с названием «offer», и именно этот лист выбран как загружаемый.

Интерфейс настройки данных при загрузке из файла Excel

При загрузке CSV и Excel обращайте внимание на типы данных для каждого столбца.

ViTalk GPT

Виртуальный ассистент

загрузка с сетевого диска

4

Сетевое хранилище позволяет организовать централизованное хранение данных, а также работать командам с одними и теми же файлами, обновляя их при необходимости. Подключается единое хранилище для всей платформы, затем администратор платформы может указать, какие папки в нем будут доступны определенным рабочим областям.

⚠️ Перед загрузкой убедитесь, что администратор подключил сетевое хранилище, в котором хранятся файлы. Подробнее, как это сделать, можно прочесть в документации.

К документации

При выборе загрузчика «Книга Excel/файл CSV из сетевого хранилища» дополнительно откроется окно, в котором вам нужно будет найти требуемый файл и нажать Подключить напротив его названия.

Далее откроется стандартный диалог выбора файла. Выберите необходимый файл и нажмите Открыть. После этого в новом окне появится стандартный интерфейс настройки данных.

После того как вы проверили и настроили таблицу, нажмите кнопку Добавить выбранные. Данные загрузятся на платформу Visiology, и вы увидите таблицу на экране настройки модели данных.

При выборе этого пункта дополнительно откроется окно, в котором будут скомпонованы загрузчики из файлов Excel и CSV как с компьютера, так и с сетевого диска. Оно создано для удобства работы.

После выбора нужного загрузчика интерфейс и настройка данных делаются так же, как и описано выше.

Данные из файла

Перед построением модели данных важно понять, какая таблица является фактовой, а какая из них — таблица-справочник.

Типы таблиц

1

Загружаем таблицы

2

Определяем типы таблиц

3

Создаем модель данных

4

Настраиваем автообновление данных

выделяют два типа таблиц

1

Таблица, содержащая в себе количественные и качественные данные о событии факта, которым в свою очередь является строка в виде записи в таблице. Данные в таблице фактов можно агрегировать.

Например, в таких таблицах содержится информация по показаниям приборов, транзакциям, покупкам, планам.

Таблица фактов

2

Таблица, содержащая качественную информацию, на которую могут ссылаться значения из столбцов в таблице фактов. По этим данным обычно происходит фильтрация или более детальное рассмотрение информации.

В таких таблицах содержится информация по клиентам, адресам, товарам в магазине.

Таблица-справочник

А если таблиц-справочников несколько или очень много? Мы обращаемся к «Модели данных».

Модель данных

1

Загружаем таблицы

2

Определяем типы таблиц

3

Создаем модель данных

4

Настраиваем автообновление данных

Все мы знаем, что такое таблица. Это перечисление строк, содержащих информацию, при этом каждая строка поделена на столбцы. Столбец, в свою очередь, характеризуется определенным типом данных и содержит единый фрагмент информации. Обычно мы называем строку в таблице записью. Табличный способ хранения информации очень удобен в плане организации данных. По сути таблица сама по себе является моделью данных в своей простейшей форме. А значит, когда мы вводим на лист Excel текст и цифры, мы создаем модель данных.

– это абстрактное, логическое определение объектов, операторов и других элементов, в совокупности составляющих абстрактную машину доступа к данным, с которой взаимодействует пользователь. Эти объекты позволяют моделировать структуру данных, а операторы — поведение данных.

Модель данных (data model)

Три основных типа схем

VISIOLOGY 3.0 хранит данные в табличном виде (реляционные БД). Для корректной работы с данными необходимо эти таблицы связать между собой, то есть построить модель данных. Сделать это можно по-разному, на данный момент выделяют три основных типа.

1

Модель данных состоит из двух типов таблиц: таблицы фактов – центр «звезды» – и нескольких таблиц-справочников.

Схема «Звезда»

2

Модель данных состоит из нескольких таблиц фактов, которые имеют связь по общему справочнику. В данном случае это общий справочник №5.

Схема «Созвездие»

3

Модель данных состоит из двух типов таблиц: в центре расположена одна или несколько центральных таблиц фактов, а вокруг нее — таблицы измерений.

Схема «Снежинка»*

*На данный момент «Снежинка» не поддерживается в платформе Visiology

Пример модели данных «звезда»

С тем, как будут располагаться таблицы, мы определились, самое время их соединить (связать).

Создание связи

Представляет собой объединение двух таблиц. Такие таблицы называются связанными. Графически связь двух таблиц обозначается линией между ними.

Связь (relationship)

Связь между таблицами устанавливается путем перетаскивания столбца таблицы измерений в столбец таблицы фактов, при этом тип данных двух столбцов должен быть одинаковым.

Для просмотра связи наведите курсор мыши на ее графическое изображение – приложение подсветит поля, по которым вы связали таблицы.

Если вы ошибочно привязали таблицу и хотите удалить созданную связь, кликните на ее графическое изображение и нажмите «Удалить связь».

Куда должна смотреть стрелка

В модели данных Visiology есть направление связи. Оно играет важную роль в том, каким образом работает фильтрация. Понимание направления связи является важным шагом для построения модели данных.

Наверняка при изучении DAX вы задавались вопросом, что подразумевает направление связи.

Ответ: это означает направление «Фильтрации».
Каким бы ни было направление отношений, это означает, что платформа фильтрует данные. В приведенном скриншоте вы можете видеть, что направление связи идет от таблицы «ЖК» к «offer».

Это означает, что любой столбец в справочнике «ЖК» может фильтровать данные в таблице фактов «offer». То есть вы можете сделать срезы и посмотреть данные в таблице «offer» по каждому наименованию из таблицы «ЖК».

Важные аспекты связей между таблицами

Таблицы, объединенные связью, выполняют разные роли. Одна из них представляет сторону «один», а вторая – «многие», которые помечаются символами «1» и «*» (звездочка).
Одной подкатегории может принадлежать несколько товаров, тогда как один товар может представлять только одну подкатегорию.
Столбцы, использующиеся для объединения таблиц и обычно имеющие одинаковые имена, называются ключами (keys) связи. При этом в ключевом столбце таблицы, представляющей сторону «один», должны находиться уникальные значения без пропусков.
Связи могут образовывать цепочки. Каждый товар принадлежит какой-то подкатегории, которая, в свою очередь, представляет определенную категорию товаров. Следовательно, каждый товар можно отнести к конкретной категории. Но чтобы получить ее название, необходимо пройти к ней от товаров через цепочку из двух связей.
Стрелкой посередине связи обозначается направление перекрестной фильтрации, то есть распространение фильтра по этой связи.

Вот и всё! Модель данных готова.

Если вы загружаете данные из баз данных, то для них можно настроить автообновление по расписанию.

Автообновление данных

1

Загружаем таблицы

2

Определяем типы таблиц

3

Создаем модель данных

4

Настраиваем автообновление данных

Как было упомянуто ранее, для таблиц, загруженных через JDBC или из сетевого хранилища, доступно автообновление данных. Что это значит?

Если данные в базе данных и/или в файле на сетевом ресурсе будут изменены или дополнены, вы можете автоматически обновить их в таблице на платформе, включив автообновление данных по расписанию для выбранной таблицы и указав периодичность.

Данная функция поддерживается для загрузчиков JDBC и файлов из сетевого хранилища.

Чтобы включить эту функцию на сайдбаре в левой части экрана, нажмите на кнопку назад. Перейдите в рабочую область с вашим набором данных и нажмите кнопку «Расписание обновлений» в нужном вам наборе данных.

Меню обновления данных на сайдбаре. Чтобы включить автообновление, нажмите на иконку календаря в строке с набором данных и настройте периодичность обновлений.

В открывшемся окне, в левой части, с помощью переключателя мы выбираем, для чего хотим настроить частоту обновления — всего набора данных, одной или нескольких таблиц.

В правой части выбираем частоту обновления: Ежедневно, По дням или Поминутно. Настраиваем время или периодичность в зависимости от появившегося интерфейса.

При выборе часового пояса укажите такой же, как и на вашем сервере, где установлена платформа.

После того, как все настроено, достаточно нажать кнопку «‎Сохранить расписание»‎ для применения настроек.

Если необходимо обновить данные здесь и сейчас, можно воспользоваться ручным обновлением данных.

Для этого нажмите на иконку обновления, и механизм запустится. При этом вы можете продолжать просматривать или редактировать дашборды, что особенно актуально, если обновление данных занимает много времени.

Ручное обновление

На страницу курса

Перейти к практике

Если у вас появились вопросы, напишите нам