Data Warehouse y Data Warehousing

8 febrero, 2010 por Ana Buigues Dejar una respuesta »

Los sistemas Data Warehouse o sistemas Data Warehousing surgen como un mecanismo de apoyo para la ayuda de toma de decisiones, en el que los datos de una organización se transforman en información estratégica, a la que además se puede acceder de manera sencilla y en el momento que se necesita. Con esta tecnología, los datos operacionales son una herramienta competitiva para las organizaciones. Se permite a los usuarios finales examinar los datos, realizar análisis y detectar tendencias, llevar a cabo el seguimiento de medidas críticas, producir informes con rapidez y detectar tendencias. De esta forma obtenemos una mayor ventaja competitiva en la organización, pudiéndonos anticipar a diversas situaciones.

Los sistemas que contienen datos operacionales (son los datos que se generan en las transacciones diarias de la organización) contienen información que es útil para los analistas de negocio. Por ejemplo, los análistas pueden usar esta información para ver que productos se vendieron más en cierta población durante una época del año.

Pero surgen varios problemas cuando los analistas de negocio intentan acceder directamente a estos datos:

  • Puede que los analistas no tengan el conocimiento suficiente para obtener los datos.
  • Los datos operacionales pueden no estar en el mejor formato para ser usados con propósito de análisis.
  • La ausencia de una visión histórica hace difícil el análisis de los datos.

Un proceso de Data Warehousing soluciona estos problemas creando almacenes de datos informacionales. Los datos informacionales son datos que han sido extraídos de los datos operacionales y transformados para la toma de decisiones. Por ejemplo, limpiar los datos, realizar cálculos sobre éstos, separarlos de los datos operacionales…

Data Warehousing es el proceso de extraer y filtrar los datos de las operaciones comunes a la organización, procedentes de los distintos sistemas de información y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depósito o almacen de datos (Data Warehouse) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organización.

El objetivo es convertir los datos operacionales en información relacionada y estructurada, homogénea, de mayor calidad y que se mantenga en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales y de manera más agregada los datos anteriores.

Un punto fuerte del Data Warehousing es la meta-información. Cada dato está identificado por una descripción, un origen, historial o forma inicial y sucesivas. Este conjunto de datos sobre los datos es lo que se denomina como metadatos. Un metadato proporciona el contenido semántico necesario para que los datos puedan ser interpretados.

¿Qué diferencia hay entre Data Warehousing y Data Warehouse?

Cuando queremos hacer referencia al proceso global en el que a partir de diferentes fuentes de datos (SGDB, ficheros planos, .csv, etc.) se crea  y se mantiene un almacén central de datos y que puede ser consultado por herramientas con un propósito de análisis concreto y de ayuda a la toma de decisiones, se debe utilizar el termino de Data Warehousing.

Para referirnos no al proceso en sí, sino al repositorio central de datos sobre el que se construye el sistema y que integra todos los datos de la organización desde el punto de vista del usuario y no de los procesos, nos estamos refiriendo a Data Warehouse.

Características de un Data Warehouse

Un Data Warehouse se caracteriza por ser un conjunto de datos orientados a temas, integrado, variante en el tiempo y no volátiles, que dan soporte al proceso de toma de decisiones. Vamos a analizar esto por partes.

1. Orientado a temas

Orientado a los temas principales de la organización. La información se clasifica en función de los aspectos que son de interés para la organización. Se organizan por temas para facilitar el acceso y el entendimiento por parte de los usuarios finales. Por ejemplo, tenemos información que proviene de los datos operacionales de distintas áreas como son: prestamos, ahorros, nóminas y créditos. Pues los temas que nos pueden interesar son: clientes, productos, vendedores y actividad.

2. Integrado

En un sistema operacional no hay integración, pero en un Data Warehouse todos los datos se encuentran integrados. Esta integración se muestra de diferentes maneras: consistencia en codificación de estructuras, en unidades de medida de las variables, en múltiples fuentes, en convenciones de nombres, en atributos físicos de los datos etc…

3. Variante en el tiempo

En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente, por el contrario, la información almacenada en el Data Warehouse refleja un histórico de los datos en un horizonte de tiempo mucho más amplio (del orden de años). De esta forma podemos detectar tendencias en el tiempo.

4. No volátil

El Data Warehouse existe para ser leído y no para ser modificado, la información es por tanto permanente, la actualización del Data Warehouse significa la incorporación de los últimos valores que tomaron las distintas variables contenidas en él, sin ningún tipo de acción sobre lo que ya existía. Los datos más recientes no sustituyen a los precedentes, sino que suelen mantenerse con un mayor nivel de detalle. Por ejemplo: en el año actual se guardarían las ventas diarias de los diferentes artículos, mientras que los datos anteriores se mantendrían accesibles de manera agregada.

31 comentarios

  1. juan carlos dice:

    Soy estudiante de ingenieria y es muy interesante lo del data warehouse me interesa mucho ojala y que me pudiera ayudar y enviarme informacion Ingeniera se lo agradeceria mucho Well I have to go see you later I’ll wait for your information

  2. Ana Buigues dice:

    Hola Juan Carlos, la información la obtengo de distintos libros que consulto, si quieres puedo enviarte un mail con los distintos títulos de los libros. Un saludo.

  3. Josue Matzar dice:

    Soy estudiante de Ingenieria en sitemas a principios de noviembre me hago el examen privado de ingenieria y apesar de trabajar con base de datso no entendia lo del datawarehouse muchas gracias por el aporte a sido mucha ayuda

  4. Buen aporte… muy bien explicado, si no es mucho pedir estimada ingeniera cual es la fuente bibliográfica de la misma.
    Muchas gracias, saludos

  5. Néstor León dice:

    Hola, al igual que los demás compañeros también me pareció un excelente aporte, bien explicado, excelente para los principiantes como yo. Me gustaría que me enviará la fuente bibliográfica de su articulo. Saludos y gracias de antemano.

  6. Cami dice:

    Muy bien explicado, me ayudo mucho para poder entender el tema, podría por favor enviarme la fuente bibliográfica? muchas gracias!

  7. Daniel dice:

    Soy estudiante de ingeniería en sistemas, y estoy realizando un trabajo de tesis de data warehouse utilizando pentaho. Me gustaría saber que bibliografía utilizaste, si no es mucha molestia.
    Muy bueno y claro tu aporte

Deja un comentario