Область применения: при загрузке/обновления данных посредством Excel-файла.
Перед тем, как рассмотреть принципы нормализации данных, разберем многомерную модель данных, которая служит основой для построения структуры данных для дашборда.
Многомерная модель данных позволяет организовывать и просматривать данные в разрезе нескольких измерений. Эта модель состоит из показателей и измерений:
Показатель
- это величина или количественная характеристика явлений и процессов. Например, численность населения, рейтинг, количество товаров, работников и т. п.Измерения
- это структура, которая классифицирует показатели. Например, дата, местоположение, вид товара, филиал магазина и т. п.Модель представлена в виде куба (см. Изоб. 1), который используется в системах оперативной аналитической обработки (OLAP). Ввиду этого, его также называют OLAP-кубом.
Так, в примере в Изоб. 1 значения показателей с одной стороны отображены по таким измерениям, как районы и месяцы, а с другой - по типам учреждений культуры и месяцам. Как мы видим, измерения между собой должны быть связаны.
Изоб. 1. Многомерная модель данных (OLAP-куб)
Таким образом, нормализованный вид данных в табличном виде будет иметь следующий вид (см. Изоб. 2). В данной таблице:
Изоб. 2. - Пример таблицы с нормализованными данными
Таким образом, с целью подготовки данных перед разработкой дашборда следует придерживаться следующих этапов и принципов нормализации данных:
Формат данных
: Данные должны быть представлены в Excel-файле.Структура ячеек
: В данных не должно быть объединенных ячеек.Исключение промежуточных значений
: В данных не должно быть промежуточных и итоговых значений.Исключение символов
: Ячейки с значениями показателей не должны содержать в себе специальные символы (%, № и т. п.), знаки препинания и единицы измерений (ед., шт., чел., руб. и т. п.).Определение измерений и показателей
: Выявите, какие данные являются измерениями, а какие показателями.Создание иерархий
: Определите иерархии в измерениях, например, год → квартал → месяц.Последовательность данных
: Рекомендуется расположить в левой части таблицы измерения, а затем показатели, как показано в приведенном выше примере. Измерения с иерархией следует размещать рядом друг с другом, в то время как измерения различных категорий можно располагать произвольно.Согласованность данных
: В случае наличия нескольких показателей в одной таблице следует включать только те показатели, которые имеют одинаковую структуру измерений.Единообразие данных
: В одном столбце следует использовать только один тип измерения. Например, в столбце "Месяц" должны быть указаны только названия месяцев. Также важно соблюдать единообразие в наименованиях измерений: например, если в одном месте указано “Январь”, то в другом месте не должно быть указано “январь”. Аналогично с показателям: если значения являются количественными, в них не должно быть текстовых значений.Формат значений
: Значения показателей имеют соответствующий формат данных. Например, если столбец содержит даты в числовом формате, выберите краткий формат даты.Уникальность данных
: Каждое значение показателя должно быть уникальным, другими словами, ни одно значение показателя не должно существовать в наборе данных более одного раза. Наличие дублей может приводить к несогласованности и противоречиям вследствие отсутствия единой версии правды.Для данной статьи использованы материалы из следующих источников:
Автор
: Стручкова Айсена Сергеевна -
специалист отдела аналитики и методологии цифрового развития ГБУ РС(Я) "РЦИТ"
Дата публикации
: 10.01.2025