Сравнение основных характеристик у OLTP-систем и хранилищ данных В организации может быть накоплено очень много информации, но из неё трудно извлечь полезные данные, так как эта информация не структурирована, не согласована, не всегда достоверна и её практически невозможно обработать. В OLTP-системах данные организованы отлично от хранилищ данных: 1) в OLTP-системах используются нормализованные таблицы; нормализация фиктивна, если данные часто изменяются, но ухудшает производительность во время выборки; в хранилищах данных данные только выбираются и редко изменяются, поэтому целесообразно сохранять данные в ненормализованном виде, в том числе сохраняя заранее вычисленные итоговые данные, обновление происходит только в момент загрузки данных, в момент загрузки данных идёт пересчёт всех итогов; 2) выполнение некоторых аналитических запросов требует хронологической упорядоченности данных, а реляционная модель не предполагает существование порядка записи в таблице; 3) в аналитических данных чаще используются агрегированные данные, а не детальные; 4) в организации может быть много OLTP-систем, предназначенных для поддержки различных деловых задач, но, как правило, существует только одно хранилище данных. OLTP |ХД ---------------------------------------+-------------------------------------------- 1 Содержит тек. д-е |Содержит истор. д-е 2 Хранит подробные сведения |Хранит подробн. св-я, а также частично или |полностью агрег. д-е 3 Д-е явл-ся динам. |Д-е в основном статические 4 Повторяющийся способ обр-ки д-х |Нереглам., неструктур. и эвристич. способ |обр-ки д-х 5 Тип экр. форм. определён заранее |Форма опр-ся польз-лем 6 Предсказуемый способ исп-я д-х |Непредсказуемый ... 7 Ориентирована на прикл. обл. |Ориентирована на предм. обл. 8 Поддержка принятия повседневных реш-й |Поддержка принятия стратег. реш-й 9 Обслуживает большое к-во работников ис-|Обслуживает относительно малое к-во работни- полнит. звена |ков руков. звена 10 Время отклика -- секунды |Время отклика -- минуты 11 Отвечает на вопросы "сколько?", "как?",|Отвечает на вопросы "почему?", "что будет, "когда?" |если?" С помощью хранилища можно отвечать на более сложные запросы, чем в OLTP-системах, например: в OLTP-системе запрос может выглядеть следующим образом: "Какова средняя стоимость объектов недвижимости в крупнейших городах страны?", к хранилищу данных: "Какие три района в обслуживаемых городах были наиболее популярны с точки зрения аренды объектов недвижимости в определённом году и как эти данные изменились по сравнению с данными за предыдущие два года?", "Какая связь наблюдается между суммарным ежегодным доходом в каждом отделении компании и общей численностью агентов в каждом отделении?" Преимущества хранилищ данных: 1) потенциально высокая отдача от инвестиций; 2) повышение конкурентоспособности за счёт того, что люди, ответственные за принятие решений, получают доступ к ранее недоступной, неизвестной и никогда ранее не использовавшейся информации; 3) повышение эффективности труда ответственных за принятие решения лиц; 4) руководство получает полное ясное видение ситуации и единый механизм учёта, контроля и анализа; 5) уменьшается потребность в человеческих ресурсах. Проблемы разработки и сопровождения хранилищ данных: 1) недооценка ресурсов, необходимых для загрузки данных; 2) скрытые проблемы источников данных; 3) отсутствие требуемых данных в имеющихся архивах; 4) повышение требований конечных пользователей; 5) унификация данных; 6) высокие требования к ресурсам; 7) владение данными; 8) сложное сопровождение; 9) сложность интеграции инструментальных средств. Примеры использования хранилищ данных: 1) торговля (очень много продуктов, очень маленькие, но частые транзакции): консолидация данных (сбор данных из территориально разрозненных подразделений и множества источников данных), прогнозирование и оптимизация запасов, программы лояльности, стимулирование спроса, анализ зависимости; 2) медицина: диагностика заболеваний, исследование эффективности новых методов лечения.