ПОИСК Статьи Чертежи Таблицы Проектирование хранилищ данных из "Создание информационных систем с AllFusion Modeling Suite " Проблемы эффективного использования данных. Корпоративные системы управления предприятием, созданные на основе реляционных СУБД, как правило, эффективно решают задачи учета, контроля и хранения данных. Однако в силу своей специфики реляционная структура не позволяет решать задачи анализа имеющейся информации с требуемой производительностью. Особенно остро эта проблема стоит в гетерогенных информационных средах, когда в центральном офисе организации и в филиалах эксплуатируются СУБД различных производителей (см. рис. 2.3.29 а). [c.206] Такая ситуация часто возникает либо в результате слияния компаний, когда компания превращается в филиал более крупной компании, но при этом нерентабельно перестраивать исторически сложившуюся информационную инфраструктуру, либо вследствие неудовлетворительного управления, когда филиалы не придерживаются корпоративного стандарта и внедряют собственные ИС. Одной из основных задач, решаемых в корпоративных ИС, является предоставление аналитической информации, необходимой для принятия решений. Для поддержки принятия решения необходим не один заранее подготовленный отчет, а серия разнообразных отчетов, причем менеджер не всегда представляет, какой именно отчет понадобится ему в следующие полчаса. Например, при анализе продаж по компании оказывается, что в феврале текущего года произошел спад. Чтобы выяснить причины спада, необходимо просмотреть отчет о продажах в регионах. Отчет о продажах в регионах показывает, что спад произошел, видимо, по причине неудовлетворительной работы одного из филиалов, следовательно, необходим отчет о работе данного филиала и т. д. и т. п. Организовать выполнение таких отчетов в гетерогенной среде крайне сложно. Для эффективного анализа данных в этом случае необходимо объединять в одном запросе данные из разнородных источников. В настоящее время существуют мониторы транзакций и генераторы отчетов (например. rystal Reports), обладающие такой функциональностью, однако производительность таких систем не может быть высокой. В процессе анализа данные, необходимые для принятия решений, должны поступать к потребителю в режиме реального времени. Если же данные собираются из разных источников, то, во-первых, отчет готовится недопустимо медленно, во-вторых, другие приложения, работающие с реляционными СУБД во время выполнения отчета, скорее всего будут заметно замедляться. [c.207] Решением проблемы производительности является создание специализированной базы данных - хранилища данных (Data Warehouse), предназначенной исключительно для обработки и анализа информации (рис. 2.3.29 б). [c.207] Хранилища данных позволяют разгрузить оперативные базы данных и тем самым дают возможность пользователям более эффективно и быстро извлекать необходимую информацию. Они могут быть включены в общую корпоративную сеть, по которой в хранилище по заранее определенному расписанию, как правило в период наименьшей загрузки сети и серверов, копируется накопленная за день или за неделю информация. Поскольку данные меняются редко, то к хранилищу данных не предъявляются жесткие требования, которые обычно предъявляются к обычным базам данных, - отсутствие аномалий при выполнении операций обновления или удаления и избыточности хранения информации. По этой причине может сложиться неверное представление, что проектировать хранилище проще, чем базу данных, предназначенные для оперативной обработки информации. На самом деле проектирование хранилища данных является весьма сложной задачей. [c.208] Очевидно, что для решения этой задачи необходимо использовать специальные инструментальные средства. ERwin является незаменимым инструментом для проектирования хранилищ данных по нескольким причинам. [c.209] Как было указано выше, при проектировании хранилища необходимо создавать подробные спецификации для всех источников данных, в том числе самых разных типов. ERwin поддерживает на физическом уровне прямое и обратное проектирование объектов более чем для 21 типа баз данных, поэтому является идеальным ASE-средством для работы с гетерогенными ИС. [c.209] Рассмотрим основные особенности техники моделирования хранилищ данных с помощью ERwin. [c.209] Таблицы размерности имеют меньшее количество строк, чем таблицы факта, и содержат описательную информацию. Эти таблицы позволяют пользователю быстро переходить от таблицы факта к дополнительной информации. [c.211] Схема снежинка (так называется размерная модель, в которой консольные таблицы используются для нормализации каждой таблицы размерности, рис. 2.3.31) обычно препятствует эффективности, потому что требует объединения многих таблиц для построения результирующего набора данных, что увеличивает время выполнения запроса. Поэтому при проектировании не следует злоупотреблять созданием множества консольных таблиц. [c.212] Вернуться к основной статье