¿Qué pasa cuando hemos identificado la necesidad de mejorar los
sistemas que dan soporte a la toma de decisiones en nuestra organización?
Rápidamente, nos hallamos en un contexto que si bien tiene puntos en común con
nuestro modelo de negocio y nuestras aplicaciones transaccionales, nos deja
descolocados. Más de la mitad de términos que se usan en las presentaciones de
productos nos son desconocidos.
Así que de
nuevo nos situamos desde el marco de establecer significados etimológicos.
Recordemos que dimos ya las definiciones de Inmon y Kimball. Para empezar es
necesario tener claro que significan los términos Data Warehousing, Data
Warehouse y Data Mart que participan en las fases iniciales de implantación de
una herramienta Business Intelligence.
Definición de Data Warehousing
Entendemos
por Data Warehousing el proceso de extraer y filtrar datos de las operaciones
comunes de la organización, procedentes de los distintos sistemas de
información operacionales y/o sistemas externos, para transformarlos,
integrarlos y almacenarlos en un depósito o almacén de datos (Data Warehouse,
en inglés) con el fin de acceder a ellos para dar soporte en el proceso de toma
de decisiones de una organización. Es decir, la finalidad es convertir los
datos operacionales en información relacionada y estructurada, homogénea y de
mayor calidad, identificada convenientemente y que se mantenga en el tiempo, es
decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se
acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de
detalle los datos actuales, y de manera más agregada los datos anteriores. Se
pretende crear un círculo virtuoso para la información.
Definición de Data Warehouse
Es un repositorio de datos de muy fácil acceso, alimentado de
numerosas fuentes, transformadas en grupos de información sobre temas
específicos de negocios, para permitir nuevas consultas, análisis, reporteado y
decisiones.
¿Qué es lo que le preocupa a los ejecutivos?
Se tienen montañas de datos en la compañía, pero no podemos llegar
a ellos adecuadamente. Nada enloquece más a los ejecutivos que dos personas
presentando el mismo resultado de operación pero con diferentes números y los
ejecutivos lo que buscan es ver la información pero desde diferentes ángulos,
mostrando únicamente lo que es importante para tomar una decisión en la
empresa, finalmente los ejecutivos saben que hay datos que nunca serán
confiables, por lo que prefieren que se eviten en los reportes ejecutivos.
Uno de los valores más importantes de una organización es la
información.
Estos valores normalmente son guardados por la organización de dos
formas:
• Los sistemas
operacionales de registros
• Y el Data
Warehouse
Crudamente hablando, el sistema operacional de registros es donde
los datos son depositados y el Data WareHouse es de donde se extraen eso datos.
Los objetivos fundamentales de un Data WareHouse son:
• Hacer que la
información de la organización sea consistente: la información de una parte de
la organización puede hacerse coincidir con la información de la otra parte de
la organización. Si dos medidas de la organización tienen el mismo nombre,
entonces deben significar la misma cosa. Y a la inversa, si dos medidas no
significan la misma cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad. Significa que toda la
información es contabilizada y completada. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar.
• Es información
adaptable y elástica: el Data WareHouse esta diseñado para cambios continuos.
Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y
las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al
Data WareHouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen.
El diseño de Data Marts separados que hacen al Data WareHouse, deben ser
distribuidos e incrementados. Todo lo demás es un compromiso y por consiguiente
algo que queremos mejorar.
• Es un seguro
baluarte que protege los valores de la información: el Data WareHouse no
solamente controla el acceso efectivo a los datos, si no que da a los dueños de
la información gran visibilidad en el uso y abusos de los datos, aún después de
haber dejado el Data WareHouse. Todo lo demás es un compromiso y por consiguiente
algo que queremos mejorar.
• Es la
fundación de la toma de decisiones: el Data WareHouse tiene los datos correctos
para soportar la toma de decisiones. Solo hay una salida verdadera del Data
WareHouse: las decisiones que son hechas después de que el Data WareHouse haya
presentado las evidencias. La original etiqueta que preside el Data WareHouse
sigue siendo la mejor descripción de lo que queremos construir: un sistema de
soporte a las decisiones.
Los elementos básicos de un Data WareHouse
• Sistema
fuente: sistemas operacionales de registros donde sus funciones son capturar
las transacciones del negocio. A los sistemas fuentes también se le conoce como
Legacy System.
• Área de tráfico
de datos: es un área de almacenamiento y grupo de procesos, que limpian
transforman, combinan, remover los duplicados, guardan, archivan y preparan los
datos fuente para ser usados en el Data WareHouse.
• Servidor de
presentación: la maquina física objetivo en donde los datos del Data WareHouse
son organizados y almacenados para queries directos por los usuarios finales,
reportes y otras aplicaciones.
• Modelo
dimensional: una disciplina específica para el modelado de datos que es una
alternativa para los modelos de entidad – relación.
• Procesos de
negocios: un coherente grupo de actividades de negocio que hacen sentido a los
usuarios del negocio del Data WareHouse.
• Data Mart: un
subgrupo lógico del Data WareHouse completo.
• Data
WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de todos los
data marts que la constituyen.
• Almacenamiento
operacional de datos: es el punto de integración por los sistemas
operacionales. Es el acceso al soporte de decisiones por los ejecutivos.
• OLAP:
actividad general de búsquedas para presentación de texto y números del Data
WareHouse, también un estilo dimensional especifico de búsquedas y presentación
de información y que es ejemplificada por vendedores de OLAP.
• ROLAP: un
grupo de interfases de usuarios y aplicaciones que le dan a la base de datos
relacional un estilo dimensional.
• MOLAP: un
grupo de interfases de usuarios, aplicaciones y propietarios de tecnología de
bases de datos que tienen un fuerte estilo dimensional.
• Aplicaciones
para usuarios finales: una colección de herramientas que hacen los queries, analizan
y presentan la información objetivo para el soporte de las necesidades del
negocio.
• Herramientas
de acceso a datos por usuarios finales: un cliente de Data WareHouse.
• Ad Hoc Query
Tool: un tipo específico de herramientas de acceso a datos por usuarios finales
que invita al usuario a formas sus propios queries manipulando directamente las
tablas relacionales y sus uniones.
• Modelado de
aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades
analíticas que transforma o digiere las salidas del Data WareHouse.
Meta Data: toda la información en el
ambiente del Data WareHouse que no son así mismo los datos actuales.
Un Data WareHouse proporciona
una visión global, común e integrada de los datos de la organización,
independiente de cómo se vayan a utilizar posteriormente por los consumidores o
usuarios, con las propiedades siguientes: estable, coherente, fiable y con
información histórica. Al abarcar un ámbito global de la organización y con un
amplio alcance histórico, el volumen de datos puede ser muy grande (centenas de
terabytes). Las bases de datos relacionales son el soporte técnico más
comúnmente usado para almacenar las estructuras de estos datos y sus grandes
volúmenes. Normalmente en el almacén de datos habrá que guardar información
histórica que cubra un amplio período de tiempo. Pero hay ocasiones en las que
no se necesita la historia de los datos, sino sólo sus últimos valores, siendo
además admisible generalmente un pequeño desfase o retraso sobre los datos
operacionales. En estos casos el almacén se llama almacén operacional (ODS, Operational Data Store).
Definición de Data Mart
Podemos entender
un Data Mart como un subconjunto de los datos del Data Warehouse con el
objetivo de responder a un determinado análisis, función o necesidad y con una
población de usuarios específica. Al igual que en un data warehouse, los datos
están estructurados en modelos de estrella o copo de nieve y un data mart puede
ser dependiente o independiente de un data warehouse. Por ejemplo, un posible
usos sería para el data mining.
¿Qué diferencia existe entonces entre un data mart y un data
warehouse? Su alcance. El data mart está pensado para cubrir las necesidades de
un grupo de trabajo o de un determinado departamento dentro de la organización.
Es el almacén natural para los datos departamentales. En cambio, el ámbito del
data warehouse es la organización en su conjunto. Es el almacén natural para
los datos corporativos comunes.
Conclusiones
Como conclusión, podemos afirmar que el Data Warehouse es un
sistema totalmente distinto al tradicional, por lo que el tipo de
almacenamiento también será completamente diferente al primero. En los sistemas
tradicionales, además, predomina una visión actual, prevalece la actualización
y tiene una estructura relacional. Por el contrario, con el Data Warehouse,
podemos encontrar una visión histórica, predomina la consulta y tiene una
estructura multidimensional.
A pesar de todo lo descrito, no debemos interpretar este nuevo
sistema de almacenamiento como el sustituto de los entornos operacionales. El
Data Warehouse debe ser utilizado como un complemento a ellos (como ya afirmaba
la definción de Inmon), con una creación relativamente actual y que ofrece una
visión distinta de los datos de interés.


No hay comentarios:
Publicar un comentario