Управление данными виды подхода к управлению данными. Анализ данных и управление данными

09.11.2010 Сергей Лизин

За последнее десятилетие информационные системы незаметно претерпели качественные эволюционные изменения, и сегодня каждая отдельно взятая такая система представляет собой полноценную бизнес-среду, обеспечивающую взаимодействие множества людей. Несмотря на это многие технологии их построения остаются прежними, что не всегда так безобидно, как кажется. Можно предложить ряд методов безболезненной модернизации информационных систем и изменения структур данных.

Возрастающие объемы информации требуют изменения бизнес-процессов предприятий. На смену традиционному бумажно-ориентированному взаимодействию, когда информационные системы лишь обрабатывают сведения из бумажных документов-первоисточников, приходят электронно-ориентированные системы, в которых первоисточником выступает сама информационная система, а точнее - совершаемые в ней операции пользователей. Появление технологий электронной цифровой подписи позволило придать юридическую значимость электронным документам, однако круг задач обеспечения надежного и безопасного функционирования систем подобного рода значительно шире.

Проблемы многопользовательских систем

Большинство современных корпоративных информационных систем - это многопользовательские системы на основе реляционных серверов баз данных. Пользователями таких систем могут быть работники одной или нескольких организаций, а также их клиенты (физические и юридические лица). Возможности пользователей по выполнению отдельных операций в системе (ограниченные функционально или декларативно) в каждый момент времени зависят от содержащихся в ней на тот момент данных. Возникающую здесь проблему управления конкурентным доступом к данным обычно решают с помощью технологии OLTP.

Но не все проблемы конкурентного доступа можно обойти программно за счет транзакций и дополнительных проверок. Основная проблема - человеческий фактор. Каждый пользователь работает не напрямую с данными в СУБД, а с некоторой их локальной копией, загруженной в клиентское приложение. Кроме того, программно невозможно выделить последовательность чтений и записей пользователем данных, составляющих атомарную операцию. Следовательно, нельзя и «откатить» такую транзакцию при изменении данных чтения - система просто не в состоянии определить, какое количество последних действий пользователя образуют единое целое и какие из прочитанных им данных пользователь учел при принятии решения.

В результате оказывается, что транзакции эффективны лишь в отношении серверных задач обработки данных, которые выполняются на сервере приложений или сервере баз данных в фоновом режиме по заранее заданному алгоритму и без активного участия пользователя. Конечно, можно попытаться спроектировать архитектуру системы таким образом, чтобы каждое действие пользователя представляло собой отдельную транзакцию, в рамках которой осуществлялись бы все возможные проверки согласованности данных (то есть факт запуска пользователем транзакции и переданные параметры не должны основываться на данных, прочитанных пользователем в системе, которые не проверяются в рамках транзакции). Однако не всегда и не все проверки, осуществляемые человеком, можно легко описать на языке запросов. Кроме того, это многократно увеличивает сложность, а следовательно, и стоимость разработки.

С другой стороны, обеспечение высокого уровня надежности в части согласованности данных критично лишь для нескольких наиболее значимых категорий данных, для которых как раз может быть организовано управление в режиме OLTP. Для остальных категорий данных обеспечение информационной безопасности вполне может сводиться к организации отслеживания всех изменений, производимых пользователями, причем не только последних, но и всех предшествующих.

Данные с историей

Сегодня при построении баз данных практически повсеместно используется принцип хранения только текущих данных. Этот подход, бывший весьма актуальным в условиях дефицита дискового пространства и вычислительных мощностей, сегодня в чем-то можно сравнить с использованием камеры видеонаблюдения, которая отображает на мониторе только текущую картинку, не сохраняя происходившие ранее события.

При отслеживании изменений требуется выяснение характера некорректных операций: умышленные ли это действия пользователей или проблемы, связанные с задержками в синхронизации (в силу особенностей архитектуры системы). Для этого, кроме самих измененных данных, необходимо знать их содержимое: основываясь на этом знании, пользователь мог бы поводить какие-либо изменения или же осуществлять иные фактические действия (возможно, даже вне информационной системы). Причем, поскольку в работе используются локальные копии данных, то необходимо знать содержимое данных не в самой СУБД, а в соответствующей ее локальной копии.

Еще больше ситуация усложняется тем, что наличие информации о состоянии данных в момент выполнения операций необходимо не только при изменении данных, но и при их чтении. В качестве характерного примера можно привести различного рода отчеты, формируемые на основании данных системы, существовавших в момент составления отчета. Определить в последующем источники формирования каждого сводного показателя отчета можно лишь при условии сохранения исходных данных. Дополнительной сложностью является то, что требуется отслеживать не только изменения, но и все исправления данных.

Использование информационной системы в качестве источника первичных данных практически всегда требует обеспечения юридической значимости информации, что достигается посредством электронной цифровой подписи. Сфера применения ЭЦП сегодня в основном ограничивается электронными документами, однако время требует не просто придания юридической значимости отдельным документам, передаваемым между организациями, а формирования полностью юридически значимого массива данных, любая выборка из которого также имеет юридическую силу. При этом каждое изменение данных (которое впоследствии могло служить основанием для других изменений) должно быть подписано осуществившим его пользователем.

Особенно актуальна данная проблема для государственных информационных систем, где каждый служащий имеет свои полномочия и несет соответствующую ответственность. Кроме того, трендом последних лет, особенно в сфере государственного управления, является увеличение количества функций, выполняемых без участия человека. В качестве примера здесь можно привести процесс выдачи различных выписок и справок из государственных регистров, для полноценной реализации которого решение перечисленных проблем является необходимым условием.

Отслеживание изменений данных не только становится желательным фактором, но и вызвано необходимостью соблюдать требования нормативных документов, регламентирующих порядок контроля изменений и ведения истории данных клиентов в течение длительного периода времени.

Способы управления данными

Прежде чем говорить о способах повышения эффективности управления данными в информационных системах, имеет смысл более подробно рассмотреть происходящие с ними процессы. При внимательном изучении можно обнаружить, что процесс существования данных включает в себя четыре типа жизненных циклов. Первый - это непосредственно жизненные циклы значений отдельных атрибутов объектов. Второй тип представляет собой жизненные циклы объектов в целом, описывающие такие события, как появление новых объектов и их исчезновение, а также их реорганизацию, композицию (объединение, присоединение) и декомпозицию (разделение, выделение). Третий и четвертый типы жизненных циклов - это циклы метаданных - классов объектов и их атрибутов. События, которые могут происходить с ними, аналогичны событиям, происходящим с объектами: появление, исчезновение, реорганизация, композиция и декомпозиция.

Большинство современных информационных систем строится на основе прямолинейного управления данными. При необходимости хранения информации о новой категории данных создается новая таблица, а когда такая необходимость исчезает, таблица удаляется, архивируется или просто прекращается ее использование. Когда появляется потребность хранить дополнительную характеристику об объектах, в таблицу добавляется новый столбец, а когда такая необходимость исчезает - столбец удаляется или перестает использоваться. Похожая ситуация и с хранением объектов. Операции композиции и декомпозиции реализуются посредством создания новых элементов и переноса данных. Что касается значений атрибутов объектов, то с ними все просто - они изменяются по необходимости.

При таком способе управления данными перечисленные задачи управления многопользовательским доступом к данным могут быть решены только с помощью дополнительных инструментальных средств. Причем следует отметить, что большинство современных СУБД обладают встроенным механизмом отслеживания изменений - журналом транзакций, однако доступ к его содержимому, как правило, ограничен только ядром СУБД, но даже при наличии доступа восстановление состояния на заданный момент времени, ввиду особенностей его структуры, является непростой задачей.

В качестве еще одного способа решения данной проблемы можно рассмотреть использование темпоральных (хронологических) баз данных. Но на сегодняшний день полноценные промышленные реализации таких баз, по сути, отсутствуют. Кроме того, они ориентированы на решение иных задач. Некоторые современные СУБД содержат специализированные механизмы, которые позволяют использовать фоновую версионность значений атрибутов (на основе все того же журнала транзакций), однако она далеко не всегда удобна в применении. Альтернативным вариантом является изменение самого подхода к управлению данными.

Технология хранения

Совершение любых операций пользователем в информационной системе - это поступление новой информации, которое не должно вести к уменьшению количества данных в базе данных. В этом смысле даже операция обновления далеко не безобидна, так как приводит к потере предшествующих значений, не говоря уже об операции удаления. Информационные сущности должны хранить информацию о всех указанных четырех жизненных циклах, а не повторять его.

Используя термины SQL, можно говорить, что для отражения прекращения существования объектов и изменения их характеристик недопустимо применение операторов delete и update. Эти операторы являются служебными и должны использоваться исключительно в служебных целях: для перемещения, архивации и утилизации массивов данных. Для того чтобы это стало возможным, необходимо, чтобы каждая запись базы данных представляла собой сведения о некотором событии (или его части): создании класса, разделении атрибутов, удалении объекта, изменении атрибута и т. д. Поскольку каждое такое событие будет относиться к одному из четырех перечисленных жизненных циклов, то и хранить сведения о них также имеет смысл в соответствующих четырех таблицах: Классы, Атрибуты, Объекты, Значения.

События, отражаемые в первых трех таблицах, - это сведения о переходе сущностей из одного состояния в другое. Запись, отражающая каждое такое событие, представляет собой вектор, описываемый двумя точками: предшествующим состоянием и текущим. Еще одним неотъемлемым элементом является штамп времени события, то есть это время, начиная с которого переход считается совершенным.

В качестве состояния имеет смысл использовать новый или существующий идентификатор сущности. Для обозначения пустоты, необходимой для отражения всех операций, кроме выделения, можно использовать null. Например, при создании сущности null выступает в качестве предшествующего состояния, а при удалении - в качестве текущего. Для отражения операций объединения, разделения, присоединения и реорганизации необходимо использовать несколько связанных записей событий.

В отличие от первых трех таблиц, записи таблицы Значения хранят не векторы, а лучи - значения атрибутов объектов начиная с некоторого момента времени. Столбцами данной таблицы являются: ссылка на объект, ссылка на атрибут, значение и время, начиная с которого используется данное значение.

Описанная технология позволяет упростить решение проблемы модернизации информационных систем, в частности - проблемы изменения используемых схем (структур) данных. Сегодня при их изменении существовавшие ранее данные, по сути, конвертируются в новый формат. Но, во-первых, конвертация не всегда достаточно простой процесс, а во-вторых, возникает проблема отсутствующей информации: при добавлении столбцов в таблицу, для ранее созданных записей соответствующие поля будут не заполнены, а прекращение использования столбца приводит к тому, что незаполненным данное поле будет для всех новых записей. Все это может приводить к нарушению заданных разработчиком ограничений целостности. Особенность предложенной технологии заключается в обеспечении возможности работы с данными прошлых периодов в соответствующей им схеме данных.

Управление доступом к данным

Для связи записей событий, описывающих одну операцию, имеет смысл использовать дополнительную таблицу - Транзакции, а во все остальные таблицы добавить столбец - ссылку на нее. Благодаря этому можно осуществлять связку событий (операций), составляющих с точки зрения согласованности данных единую транзакцию, а также значительно упростить корректный откат транзакций.

Следует отметить, что с учетом сказанного откат транзакций, так же как и все другие исправления, не должен проходить посредством изменения или удаления существующих записей. Для отражения операций исправления посредством операций вставки в дополнение ко времени актуальности данных (действительному времени), указываемому в записях таблиц Классы, Атрибуты, Объекты и Значения, необходимо использовать время записи данных (транзакционное время записи). Исправления фиксируются посредством добавления к существующей записи с неправильным значением новой записи с тем же временем актуальности, но с текущим временем записи данных (в связанной записи таблицы Транзакции) и исправленными значениями. Таким образом, при чтении используется запись с более поздним временем создания.

В многопользовательской среде для обеспечения полноценного отслеживания некорректных операций необходимо знать содержание данных локального кэша, то есть содержание данных на момент начала транзакции. Здесь существенной проблемой является временной разрыв между началом транзакции и ее окончанием. Под началом транзакции подразумевается чтение данных из СУБД в локальный кэш, а под ее окончанием - запись изменений. При использовании предложенной модели организации данных, для решения данной проблемы достаточно знать время чтения данных из СУБД в локальный кэш. Его целесообразно хранить в отдельном поле таблицы Транзакции.

Хранение данных в режиме «только вставка» позволяет также решить проблему отслеживания авторства всех изменений. Для этого соответствующие сведения аналогичным образом вносятся в записи таблицы Транзакции. Если при этом для всех связанных с записью транзакции на ключе пользователя рассчитать ЭЦП и сохранить ее в отдельное поле таблицы Транзакции, то можно придать юридическую значимость образуемого таким образом информационного массива, обеспечив при этом разделение ответственности между пользователями.

Описанный подход может быть применим при построении систем самого различного назначения, в первую очередь систем управления мастер-данными или нормативно-справочной информацией. В частности, использование этой технологии может решить множество проблем при построении одного из основных компонентов электронного правительства – Системы реестров государственных услуг.

Появление СУБД, анализирующих данные по колонкам, твердотельных накопителей и облачных технологий может существенно повлиять как на принципы построения баз данных, так и на дальнейшие пути развития методов бизнес-аналитики.

Сегодня к универсальным коммерческим СУБД с легкой руки некоторых видных представителей западных научных кругов прилепилось словечко legacy.



Определение

Data Management — это комплексная серия процедур, которые следует соблюдать, а также разрабатывали и поддерживали качественные данные, используя технологию и имеющиеся ресурсы. Также можно определить, что это выполнение архитектур по определенным предварительно определенными правилами и процедурами для управления полным жизненным циклом данных компании или организации. Она берется за все дисциплины, д & # 39; связанные с ресурсами управления данными.

Следующие ключевые этапы и процедуры или дисциплины управления данными:

1. Система управления базами данных

2. Администрация баз данных

3. Хранилище данных

4. Моделирование данных

6. Безопасность данных

7. Перемещение данных

8. Архитектура данных

9. Анализ данных

1. Система управления базами данных:

Это один из комп & # 39; компьютерные программы различных типов и брендов, доступных в наши дни. Эти программы предназначены специально для управления данными. Это лишь некоторые из них; Ms. Access, MsSQL, Oracle, My Sql и др. Выбор любого из них зависит от политики компании, опыта и администрирования.

2. Администрирование баз данных:

администрирования данных — это группа, которые отвечают за все аспекты управления данными. Роли и обязанности & # 39; связки этой команды зависят от компании по всем политиками по управлению базами данных. Они реализуют системы, использующие протоколы программного обеспечения процедур, для поддержки следующих свойств:

a. База данных разработки и тестирования

b. Безопасность базы данных

c. Резервные копии базы данных

d. Целостность базы данных и ее программное обеспечение

e. Выполнение базы данных

f. Обеспечение максимальной доступности базы данных

3. Хранилище данных

хранилище данных, иначе говоря, это система организации исторических данных, ее емкости и др. Фактически эта система содержит сырье для управления системами поддержки запросов. Это сырье такова, что аналитики могут получать любой тип исторических данных в любой форме, такие как тенденции, отмеченные тем данные, сложные вопросы и анализ. Эти отчеты важны для любой компании для просмотра своих инвестиций или бизнес-тенденций, которые, в свою очередь, будут использованы для будущего планирования.

Хранилище данных основывается на следующих терминах:

a. Базы данных организованы таким образом, что все элементы данных, д & # 39; связанные с одинаковыми событиями, д & # 39; связаны между собой,

b. Все изменения в базах данных записываются для будущих отчетов

c. Любые данные в базах данных не удаляются либо не напечатаны, данные статические, только для чтения

d. Данные являются последовательными и содержат всю организационную информацию.

4. Моделирование данных

Моделирование данных — это процесс создания модели данных путем применения и теории модели для создания экземпляра модели данных. Моделирование данных на самом деле, определение, структурирование и организации данных с помощью предварительно определенного протокола. Затем эти структуры реализуются в системе управления данными. Кроме того, это также будет препятствовать некоторым ограничением в базе данных в структуре.

5. Обеспечение качества данных

качества данных — это процедура, которая будет внедрена в системах управления данными, для удаления аномалий и несоответствий в базах данных. Это также выполняет очистку баз данных для повышения качества баз данных.

6. Безопасность данных

Это также называется защитой данных, это система или протокол, который внедряется в системе для обеспечения того, что базы данных хранятся полностью безопасно, и никто не может повредить с помощью контроля доступа. С другой стороны, защита данных также обеспечивает конфиденциальность и защиту персональных данных. Многие компании и правительства мира создали закон о защите персональных данных.

7. Перемещение данных

Это одно понятие, широко д & # 39; связано с хранилищем данных, которое является ETL (извлечение, преобразование и загрузка). ETL — это процесс, участвует в хранилищах данных, и это очень важно, поскольку данные загружаются на склад.

8. Архитектура данных

Это важнейшая часть системы управления данными; это процедура планирования и определения целевых состояний данных. Это, понимая целевое состояние, описывая, как обрабатываются, хранятся и используются данные в любой данной системе. Он создал условий для обработки операции, что позволяет создавать потоки данных и контролирует потоки данных в любой данной системе.

В основном, архитектура данных несет ответственность за исключение целевых состояний и выравнивания при начального развития, а затем поддерживается внедрением незначительных наблюдений. При демонтаже штатов архитектура данных разбивается на незначительные подуровни и детали, а затем покупается до нужной формы. Эти уровни можно создать с тремя традиционными архитектурными процессами данных:

a. Концептуальная, которая представляет всех субъектов & # 39 объектов хозяйственной деятельности

b. Логический означает, как эти коммерческие структуры эт & # 39; связанные.

c. Физическая, это реализация механизма данных для конкретной функции базы данных.

Из вышеприведенных утверждений мы можем определить, что архитектура данных включает в себя полный анализ взаимосвязи & # 39; связи между функциями, типом данных и технологии.

9. Анализ данных

анализ данных — это серия процедур, которые используются для извлечения необходимой информации и составления отчетов о выводах. В зависимости от типа данных и запроса, это может включать применение статистических методов, тенденции, выбора или отклонения определенных подмножеств данных на основе конкретных критериев. Фактически, анализ данных — проверка или утверждения существующей модели данных или извлечение необходимых параметров для достижения теоретической модели над реальностью.

Добыча данных — это процедура получения неизвестных, но полезных параметров данных. Также можно определить, что это серия процедур для извлечения полезной и нежелательной информации из больших баз данных. Добыча данных — это принцип сортировки больших благодаря большому количеству данных и выбор соответствующей и необходимой информации для каких-либо конкретных целей.

  • DFSMSdfp (data facility product) - базовый элемент z/OS, реализующий основные функции управления данными и устройствами хранения данных, включая распределение внешней памяти, организацию доступа к данным, поддержку операций над наборами данных, ведение каталогов наборов данных.
  • DFSMSdss ( data set service) - средства администрирования данных и устройств внешней памяти на магнитных дисках (резервное копирование, восстановление, дефрагментация );
  • DFSMShsm ( hierarchical storage manager ) - средства оптимизации хранения наборов данных на различных носителях в зависимости от интенсивности использования и обеспечения сохранности данных;
  • DFSMSrmm ( removable media manager) - средства управления сменными носителями (ленточные и оптические устройства);
  • DFSMStvs (transactional VSAM service) - поддержка параллельной обработки наборов данных VSAM для пакетных заданий и транзакций CICS .

Последние четыре модуля являются опциональными.

В z/OS реализованы и параллельно существуют две различные технологии управления данными, условно называемые MVS и SMS . Технология MVS (иногда говорят non-SMS ) базируется на применении классических возможностей и методов управления данными, основы которых были заложены еще в OS/360 . Главной особенностью данной технологии является непосредственный контроль пользователя над параметрами распределения наборов данных во внешней памяти при их создании. Технология SMS (от System Managed Storage ) представляет собой программную надстройку, обеспечивающую комплексное автоматизированное управление наборами данных, включая их создание, размещение и администрирование на основе специально определяемых классов данных. Каждому такому классу приписывается фиксированный набор атрибутов, включая устройство размещения (том), объем выделяемой памяти, характеристики набора данных (тип, структура), параметры обслуживания и защиты и т.п. Использование технологии SMS требует особой системной настройки и специальным образом сконфигурированных томов внешней памяти.

В данном разделе вначале будут представлены базовые понятия и средства, реализованные в технологии MVS , а затем описаны особенности технологии SMS .

Характеристика наборов данных

Операционная система z/OS поддерживает работу с наборами данных, различающимися по типу логической организации: последовательными, индексно-последовательными, прямого доступа, библиотечными ( PDS и PDSE), наборами данных, использующими метод доступа на основе виртуальной памяти ( VSAM ), а также наборами данных файловой системы UNIX ( HFS , zFS) [ 5.11 ] . Для поддержки наборов данных различных типов в составе DFSMSdfp представлены компоненты, получившие название методы доступа и описанные в п. 5.1.3. Каждый метод доступа ориентирован на работу с наборами данных определенного типа и обеспечивает поддержку необходимых операций для организации ввода-вывода.

Операционная система z/OS обеспечивает обработку наборов данных на уровне логических записей и блоков . Это означает, что набор данных представляется в виде совокупности логических записей, а приложения получают доступ к логическим записям и обрабатывают их как единое целое. В то же время обмен данными между периферийными устройствами и основной памятью (ввод-вывод) осуществляется блоками (или физическими записями). В блоке объединяется некоторое количество логических записей. Таким образом, для каждого набора данных необходимо установить согласованные размеры логических записей и блоков.

В z/OS поддерживаются три формата логических записей: записи фиксированной длины, записи переменной длины, записи неопределенной длины. Записи фиксированной длины имеют постоянный размер и в языке управления заданиями идентифицируются символами F или FB в зависимости от выбранного способа блокирования записей:

  • F - в каждом блоке содержится только одна логическая запись ;
  • FB - каждом блоке может содержаться более одной логической записи.

Записи переменной длины могут иметь различный размер внутри одного набора данных, поэтому помимо данных они включают в себя дополнительное поле ( дескриптор ), где указывается длина текущей записи. Используемый для обозначения записей переменной длины идентификатор V означает, что в каждом блоке содержится только одна логическая запись , включая дескриптор записи. Идентификатор VB применяется в тех случаях, если в каждом блоке может содержаться более одной логической записи, при этом для каждого блока дополнительно формируется дескриптор , содержащий длину блока .

Записи неопределенной длины ( идентификатор U ) характеризуются только размером блока и не содержат никакой информации о делении на логические записи.

Каждый набор данных характеризуется уникальным именем. Имена бывают простые и составные. Простое имя может содержать не более 8 символов (латинские буквы A-Z, цифры 0-9, спецсимволы #,@,$,-), причем первым символом имени не может быть цифра. Например, РАRTS01 , B1934-1 , $$$$A .

Составное имя набора данных складывается из нескольких простых, разделенных символом "." ("точка"). Например, D.USER1. JCL , А.VERY.LONG. DATASET .NАМЕ , $PARTS.DАTА2 .

Максимальная длина составного имени - 44 символа, включая разделительные точки.

Простые имена в составном имени принято называть квалификаторами .

Далее будут рассмотрены основные типы организации наборов данных, за исключением индексно-последовательных и наборов данных прямого доступа (не рекомендованы IBM к использованию как устаревшие) и HFS (будут рассмотрены в п. 5.1.6).

Последовательные наборы данных

Последовательные наборы данных ( Physical Sequential , PS) рассматриваются как совокупность логических записей, которые обрабатываются в том порядке, в каком они были помещены в набор данных (т.е. последовательно). Корректировка последовательного набора данных возможна либо путем полной перезаписи всей информации, либо путем добавления новых логических записей в конец набора данных. Последовательные наборы данных используются чаще всего для хранения относительно больших объемов информации (отчетов о выполненных заданиях, журналов сеанса и т.д.) на любых типах устройств внешней памяти. Причем на ленточных накопителях могут использоваться исключительно последовательные наборы данных. Для обработки последовательных наборов данных в z/OS поддерживается два метода доступа: "базисный"

Управление данными – это процесс, который подразумевает сбор, хранение, обработку и интерпретацию накопленных данных. Сегодня для многих компаний управление данными – это отличная возможность понять данные, которые уже собраны, «узнать» конкурентов, выстроить предикативную аналитику (прогнозирование), ответить на многие вопросы бизнеса.

Управление данными

Что включает управление данными? Перечислим основные процессы:

  • Управление базами данных
  • ETL-процессы (извлечение, преобразование и загрузка данных)
  • Сбор данных
  • Защита и шифрование данных
  • Моделирование данных
  • Собственно анализ данных

Исходя из вышеперечисленного становится ясно, что для успешного управления данными необходимо:

  • Решить технические вопросы (выбрать базу данных, определить, где будут храниться данные – в облаке, на сервере и т.д.)
  • Найти грамотные человеческие ресурсы 🙂

Основные проблемы при управлении данными

Среди самых распространенных ошибок и трудностей, которые возникают при сборе, хранении и интерпретации данных, называют:

  • Неполные данные
  • «Задваивание» данных (причем нередко противоречащих друг другу)
  • Устаревшие данные

Во многих вопросах на этапе сбора загрузки данных может помочь такой продукт, как , который помогает соединять данные из разных источников, обогащать и готовить их к использованию в системах Business Intelligence.

Анализ данных

У вас уже есть подходящий объем нужных и важных данных? Теперь, помимо хранения, их нужно анализировать. Анализ данных поможет ответить на многие вопросы бизнеса, принять взвешенные решения, «увидеть» своего покупателя, оптимизировать складские и логистические процессы. В общем, анализ данных важен и нужен в любой сфере, любой компании, на любом уровне.

Решение для анализа данных состоит из трех основных блоков:

  • Хранилище данных;
  • ETL-процедуры (извлечение, преобразование и загрузка данных);
  • Система отчетности и визуальной аналитики.

Все это кажется достаточно сложным, но на самом деле не все так страшно.

Современные аналитические решения

Что делать компаниям, у которых нет штата аналитиков? И нет программиста-разработчика? Но есть желание делать аналитику!

Конечно, решение есть. Сейчас на рынке представлено достаточно автоматизированных систем для аналитики и – что важно! – визуализации ваших данных.

В чем плюсы таких систем (типа ):

  • Возможность быстро внедрить (скачивайте программу и устанавливаете хотя бы к себе на ноутбук)
  • Нет необходимости в сложных IT- или математических знаниях
  • Невысокая стоимость (от 2 000 руб. в месяц за лицензию на март 2018 года)

Таким образом, внедрить такой аналитический продукт может любая компания: неважно, сколько сотрудников в ней работает. Tableau подходит и индивидуальным предпринимателям, и крупным компаниям. В апреле 2018 года ООН выбрала Tableau в качестве аналитической платформы для всех своих офисов по всему миру!

Компании, которые работают с такими автоматизированными системами аналитики, отмечают, что табличные отчеты, которые раньше строились за 6 часов, в Tableau собираются буквально за 10-15 минут.

Не верите? Попробуйте сами – скачайте бесплатную пробную версию Tableau и получите обучающие материалы по работе с программой:

Скачать Tableau

Скачайте БЕСПЛАТНО полную версию Tableau Desktop, 14 дней и получите в ПОДАРОК обучающие материалы по бизнес-аналитике Tableau

Какие бывают данные

Прежде чем перейти непосредственно к системам управления мастер-данными, давайте определим, какого рода вообще бывают данные.

Ниже представлены 5 ключевых типов:

1. Метаданные (Metadata);
2. Референс-данные (Reference data);
3. Мастер-данные (Master data);
4. Транзакционные данные (Transactional data);
5. Исторические данные (Historical data).

Метаданные – это данные о данных. Они нужны для понимания и определения, какими данными оперирует предприятие. Метаданные определяют структуры, типы данных, доступы к ним и т.д. Существуют различные схемы для описания метаданных. Например, для описания структуры XML-документа может применяться XSD-схема, для описания веб-сервиса – WSDL-схема.

Референс-данные – это относительно редко меняющиеся данные, которые определяют значения конкретных сущностей, используемых при выполнении операций в рамках всего предприятия. К таким сущностям чаще всего относятся: валюты, страны, единицы измерения, типы договоров/счетов и т.д.

Мастер-данные – это базовые данные, которые определяют бизнес-сущности, с которыми имеет дело предприятие. К таким бизнес-сущностям обычно относятся (в зависимости от предметной отраслевой направленности предприятия) клиенты, поставщики, продукция, услуги, договора, счета, пациенты, граждане и т.п. Кроме информации непосредственно о той или иной мастер-сущности, в мастер-данные входят взаимосвязи между этими сущностями и иерархии. Например, с точки зрения поиска дополнительных возможностей продаж, может быть очень важно выявлять явные и неявные взаимосвязи между физическими лицами. Мастер-данные распространяются по всему предприятию и участвуют во всех бизнес-процессах. Обычно мастер-данные воспринимаются как ключевой нематериальный актив предприятия, т.к. от их качества и полноты зависит эффективность его работы. В России часто вместо термина «мастер-данные» используют термин «нормативно-справочная информация».

Транзакционные данные – это данные, которые образовались в результаты выполнения предприятием каких-либо бизнес-транзакций. Например, для коммерческого предприятия: продажи продуктов и услуг, закупки, поступления/списания денежных средств, поступления на склад и т.п. Обычно такие данные базируются в системе управления ресурсами предприятия (ERP) или других отраслевых системах. Естественно, транзакционные системы широко используют мастер-данные при выполнении транзакций.

Исторические данные – это данные, которые включают в себя исторические транзакционные и мастер-данные. Чаще всего такие данные аккумулируются в ODS и DWH системах и служат для решения различных аналитических задач и поддержки принятия управленческих решений.

Cистемы управления мастер-данными

Прежде чем перейти к системе управления мастер-данными, определим, что такое управление мастер-данными вообще.

Управление мастер-данными (Master Data Management, MDM) – дисциплина, которая работает с мастер-данными в целях создания «золотой записи», то есть целостного и всестороннего представления о мастер-сущности и взаимосвязях, эталона мастер-данных, который используются всем предприятием, а иногда и между предприятиями для упрощения обмена информацией.

Специализированные системы управления мастер данными (MDM-системы) автоматизируют все аспекты этого процесса и являются «авторитетным» источником мастер-данных масштаба предприятия. Часто MDM-системы управляют также и референс-данными.

Ситуация, когда MDM-система является единственным источником мастер-данных, все изменения вносятся в MDM-систему и только потом передаются в системы-потребители, называется «системой записей». Это идеальная ситуация для управления мастер-данными. Однако в реальной жизни все не так просто: MDM-система не всегда будет являться «системой записей». Из-за особенностей бизнес-процессов конкретного предприятия, технических сложностей конкретных систем и т.д., приходится создавать «копии» мастер-записей. Система, в которой содержится копия мастер-данных, называется «системой ссылок». Чтобы не терять управляемости, «система ссылок» обязательно должна находиться под управлением и синхронизироваться с «системой записей».

Три измерения MDM-систем

Рассмотрим MDM–систему в трех измерениях:

Обычно MDM-системы не внедряются «с наскоку», т.к. их внедрение – это сложный процесс последовательных преобразований масштаба всего предприятия, от ведения разрозненных данных до создания целостного всестороннего представления о мастер-сущности. Поэтому внедрение MDM-систем выполняется последовательно с постепенным приближением к целевому результату в трех указанных измерениях.

Рассмотрим подробнее эти измерения.

Домены

В контексте управления мастер-данными под доменом понимается конкретная область мастер-данных. Самые распространённые домены мастер-данных – это домен клиентов и домен продуктов. В западной литературе сложились устоявшиеся термины для управления мастер-данными в рамках этих доменов: Customer Data Integration (CDI) – для домена клиентов и Product Information Management (PIM) – для домена продуктов.

К CDI традиционно относятся не только клиенты, но и организации или физические лица, которые могут называться по-разному в зависимости от отрасли предприятия: клиенты, поставщики, банки, фонды, пациенты, граждане и т.д.

К PIM традиционно относятся: продукция, товары, материалы, услуги, работы и т.д.
Есть много общего в подходах к управлению мастер-данными CDI и PIM, но есть также и много отличий. Например, при дедубликации клиентских сущностей в большинстве случаев выполняется простой синтаксический анализ атрибутов сущностей и их сопоставление на основе вероятностных алгоритмов, в то время как в продуктовом домене проводится семантический/онтологический анализ атрибутов с подключением механизмов самообучения. Кроме того, в продуктовом домене у сущностей в зависимости от выбранной категории могут сильно различаться атрибуты (например, у ноутбуков свой набор атрибутов, а у стиральных машинок – свой). Все эти особенности различных доменов должны поддерживаться MDM-системами.

В последнее время имеет место тенденция создания мультидоменных MDM¬-систем с возможностью гибкой настройки структуры метаданных. Такая гибкость дает предприятию возможность описать мастер-данные конкретно под себя с учетом всех особенностей и нюансов, но при этом требует немалого времени и знаний, чтобы грамотно спроектировать и настроить такую систему. Также на рынке присутствуют системы с «жесткой» структурой мастер-сущностей, которые имеют уже корректно настроенные механизмы, но использование такой системы возможно только теми предприятиями, которые смогут подстроиться под нее. Обычно такие системы хорошо применимы для решения задачи управления мастер-данными в рамках какой-то узкой отрасли. По моему мнению, наиболее перспективными являются системы с гибкой моделью метаданных, но имеющие при этом преднастроенные для предприятий разных отраслей модели, которые можно быстро перенастраивать.

Методы использования

Методы использования MDM (Method of use) определяют то, для чего MDM система будет использоваться на предприятии. Иными словами, кто будет потребителем мастер-данных (естественно, их может быть несколько).

Основных методов использования три:

1. Аналитический (Analytical)
2. Операционный (Operational)
3. Коллективный (Collaborative)

Аналитический метод использования поддерживает бизнес-процессы и приложения, которые используют мастер-данные преимущественно для анализа эффективности бизнеса, предоставляют необходимые отчеты и выполняют аналитические функции. Часто это происходит посредством взаимодействия MDM с инструментами и продуктами BI. Обычно аналитическая MDM-система работает с данными только в режиме чтения, она не изменяет данные в системах-источниках, но занимается их очисткой и обогащением.

Операционный метод использования позволяет собирать, изменять и использовать мастер-данные в процессе выполнения бизнес-транзакций (операций) и служит для поддержки семантической согласованности мастер-данных в рамках этих операций внутри всех операционных приложений. Фактически, в этом случае MDM функционирует как OLTP-система, которая отрабатывает запросы от других операционных приложений или пользователей. Работа в таком режиме зачастую требует построения единого интеграционного ландшафта с использованием принципов сервис-ориентированной архитектуры (SOA) и применением инструментария сервисной шины предприятия (ESB). Идеально, если такие инструменты или входят непосредственно в MDM-систему, или являются ее продолжением (есть вендоры, которые имеют в своей линейке и MDM и ESB-решения, глубоко интегрированные между собой).

Коллективный метод использования позволяет создавать мастер-сущности в случаях, когда требуется коллективное взаимодействие между различными группами пользователей в процессе этого создания. Такое согласование обычно имеет сложные «ветвящиеся» бизнес-процессы, состоящие из различных автоматических и ручных задач. Ручные задачи выполняются различными специалистами по работе с данными (дата-стюардами) в порядке, определенном бизнес-процессом. Чаще всего коллективный метод использования применяется в продуктовом домене. Например, при создании нового продукта, когда существуют несколько ответственных за ввод разных данных, много ручной работы и финальное согласование. Важно, чтобы MDM-система позволяла настраивать произвольные бизнес-процессы для быстрой поддержки бизнес-процессов конкретного предприятия.

Стили внедрения

Обычно выделяют три основных стиля внедрения (implementation style):

1. Реестровый (registry);
2. Сосуществующий (coexistence);
3. Транзакционный (transactional).

Реестровый стиль внедрения предполагает создание источника мастер-данных как «системы ссылок» на нижестоящие источники данных. Реестровая MDM содержит только ключевые атрибуты, необходимые для идентификации и сопоставления сущностей. Реестровая MDM работает в режиме «только чтение», данные вводятся в системах-источниках и передаются в MDM для разрешения сущностей. Также в реестровой MDM могут храниться ссылки на источники неключевых данных, но сами эти данные обычно в MDM не передаются. Реестровый стиль внедрения обычно применяется в случае выбора операционного метода использования MDM (см. выше).

Сосуществующий стиль внедрения предполагает наличие распределенного ввода данных в нескольких источниках (бизнес-приложениях и MDM-системе). MDM-система в данном случае может являться «системой записей» только для части атрибутов. Тем не менее, в MDM-системе формируется полноценная мастер-сущность, изменения которой транслируются в другие системы (возможно, не все). Сосуществующий стиль внедрения довольно прост и часто применяется как первый шаг к следующему - транзакционному стилю, т.к. не требует глубокой переработки систем, взаимодействующих с MDM-системой.

Транзакционный стиль внедрения предполагает создание полноценной «системы записей», в которой хранятся все данные по мастер-сущностям. MDM-система в этом случае является «единственным источником правды» для всех систем-потребителей. Все операции по созданию и обработке данных выполняется на уровне MDM-системы. Ввод данных на уровне систем-потребителей запрещен. Такой подход обычно довольно сложен для внедрения, т.к. требует существенного изменения бизнес-процессов и систем-подписчиков.

Заключение

На практике, выбор той или иной стратегии внедрения MDM определяется многими факторами: целями предприятия в области управления мастер-данными, степенью зрелости предприятия, степенью готовности IT-инфраструктуры, наличием инвестиций на реализацию проекта и многими другими параметрами. Чтобы определиться со стратегией внедрения, нужно провести тщательный анализ всех этих факторов и составить подробное технико-экономическое обоснование проекта и детальный план-график с указанием фаз развития проекта. Но это уже другая обширная тема, требующая отдельного рассмотрения.

Одно можно сказать точно, что к внедрению MDM-системы нужно подходить очень взвешенно и поступательно. Большинство проектов внедрения MDM-систем проваливаются именно из-за недооценки сложности и объема изменений, с которыми приходится сталкиваться в MDM-проектах.