Archivado en: ‘Business Intelligence’ .

Técnicas de explotación de un Data Warehouse

16 Junio, 2010

La construcción de un data warehouse es un medio, no un fin en sí mismo. El fin es la necesidad de realizar análisis y toma de decisiones a través del uso de esa fuente de datos.

Dependiendo de lo requisitos de análisis que planteé la explotación, podemos hablar de diferentes técnicas:

1. Query & Reporting

Consulta y reporte es el término general para referirse a una técnica de explotación de bases de datos que ofrece a las organizaciones acceso a medida a los datos (query) y capacidades de construcción de informes (reporting) para los usuarios finales. Estos informes incluyen datos de detalle, de gran volumen y con un formato que soporta imágenes, varios tipos de gráficos, tablas, etc, que pueden ser consultados por herramientas de usuario final.

Permite:

  • A los usuarios poco expertos solicitar la ejecución de informes o consultas según unos parámetros determinados.
  • A los usuarios con cierta experiencia hacer consultas más flexibles mediante una aplicación que proporcione una interfaz gráfica de ayuda.
  • A los usuarios altamente experimentados puedan escribir, total o parcialmente la consulta en un lenguaje de interrogación de datos.

2. Análisis multidimensional OLAP

Se define OLAP como la consolidación, visualización y el análisis de datos de acuerdo con múltiples dimensiones. Se puede hablar de OLAP como de una tecnología de explotación de bases de datos que facilita la visualización y el análisis multidimensional de los datos.

El análisis multidimensional consiste en analizar los datos que hacen referencia a hechos desde la perspectiva de sus componentes o dimensiones, abarcando también los diferentes niveles que puedan tener las respectivas dimensiones.

El análisis multidimensional se apoya en una visión conceptual multidimensional (cubo o hipercubo) de los datos para permitir a los sistemas OLAP:

  • Soportar requisitos complejos de análisis.
  • Analizar datos desde diferentes perspectivas (dimensiones)
  • Soportar análisis contra un volumen considerable de datos.

Representación de los datos mediante un cubo OLAP:

3. Data Mining

El término data mining o minería de datos se utiliza para hacer referencia a una técnica de análisis de datos cuyo objetio principal es el descubrimiento de conocimiento que se encuentra en los datos y que no es apreciable de manera directa. La minería de datos supone la búsqueda de similitudes, patrones generales y en general relaciones no obvias en los datos, con el objetivo de transformar la información disponible en conocimiento útil de negocio.

El data mining en vez de basarse en métricas de negocio o en información altamente agregada, explota la información detallada del almacén de datos.

No siempre es necesario disponer de un data warehouse para hacer data mining, pero aporta al data mining una fuente de datos de mayor calidad para poder trabajar.

Data Mart y Data Warehouse

19 Abril, 2010

Data warehouse y data martsUn Data Mart cumple los mismos principios que un Data Warehouse, construir un repositorio de datos único, consistente, fiable y de fácil acceso.

Entonces ¿Qué diferencia hay entre un data warehouse y un data mart? Su alcance. El data mart está pensado para cubrir las necesidades de un grupo de trabajo o de un determinado departamento dentro de la organización, en cambio, el ámbito de un data warehouse es la organización en su conjunto. Se caracterizan por disponer la una estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

Supone una buena opción para pequeñas y medianas empresas que no puedan afrontar el coste de poner en marcha un Data Warehouse. La escalabilidad de los data marts hacia el data warehouse puede ser una solución si el número de data marts aumenta considerablemente.

Clases de Data Marts

Existen dos tipos de data marts:

1. Data Marts Dependientes

Los datos que se utilizan para poblar el data mart provienen del data warehouse. Esta estrategia es particularmente apropiada cuando el data warehouse crece muy rápidamente y los distintos departamentos requieren sólo una pequeña porción de los datos contenidos en él.

2. Data Marts Independientes

Los datos que se utilizan para poblar el data mart provienen de los sistemas operacionales y/o fuentes externas.

Problemática:

  • El hecho de tener varios data marts independientes, sin ningún tipo de integración, puede hacer que las tareas de administración y mantenimiento se conviertan en un lastre.
  • Se puede dar el caso de que algunos data marts necesiten los mismos datos para dar respuesta a determinadas preguntas, por lo que tenemos redundancia de datos, ya que cada data mart se alimenta con sus procesos de extracción y transformación propios.

Arquitectura de un Data Warehouse

5 Marzo, 2010

Una arquitectura de Data Warehouse es una forma de representar la estructura global de los datos, la comunicación, los procesos y la presentación al usuario final. La arquitectura está constituida por las siguientes partes interconectadas:

Arquitectura Data Warehouse

Elementos que constituyen la arquitectura de un Data Warehouse

Explicamos uno a uno la función de cada nivel.

1. Base de datos operacional y base de datos externa

Las organizaciones adquieren datos de bases de datos externas a la propia organización, que incluyen datos demográficos, económicos, datos sobre la competencia, etc.

Mediante el proceso de data warehousing se extrae la información que está en la bases de datos operacionales y se mezcla con otras fuentes de datos. Enriquecemos la información.

2. Nivel de acceso a la información

Es la capa con la que trata el usuario final. La información almacenada se convierte en información fácil y transparente para las herramientas que utlizan los usuarios. Se obtienen informes, gráficos, diagramas, etc.

3. Nivel de acceso a los datos

Comunica el nivel de acceso a la información con el nivel operacional, es el responsable de la interfaz entre las herramientas de acceso a la información y las bases de datos.

La clave de este nivel está en proveer al usuario de un acceso universal a los datos, es decir, que los usuarios sin tener en cuenta la ubicación de los datos o la herramienta de acceso a la información, deberían ser capaces de acceder a cualquier dato del data warehouse que les fuera necesario para realizar su trabajo.

4. Nivel de directorio de datos  (metadatos)

Para proveer de un acceso universal, es absolutamente necesario mantener alguna clase de directorio de datos o repositorio de información de metadato que ayude a mantener un control sobre los datos. El metadato aporta información sobre los datos de la organización, de dónde proviene, qué formato tenía, cuál era su significado y si se trata de un agregado, cómo se ha calculado éste.

Para mantener un almacén completamente funcional, es necesario disponer de una amplia variedad de metadatos, información sobre las vistas de datos para los usuarios finales y sobre las bases de datos operacionales.

5. Nivel de gestión de procesos

Este nivel tiene que ver con la planificación de las tareas que se deben realizar, no sólo para construir, sino también para mantener el data warehouse y la información del directorio de datos. Es  o el controlador de alto nivel de los procesos que se han de llevar a cabo para que el data warehouse permanezca actualizado.

6. Nivel de mensaje de la aplicación

Este nivel es el encargado del transporte de la información a lo largo del entorno, se puede pensar en él como un middleware.

7. Nivel Data Warehouse (físico)

Es el núclo del sistema, el repositorio central de información donde los datos actuales usados principalmente con fines informacionales residen. En el data warehouse físico se almacenan copias de los datos operacionales y/o externos, en una estructura que optimiza su acceso para la consulta y que es muy flexible.

8. Nivel de organización de datos

Incluye todos los procesos necesarios para seleccionar, editar, resumir, combinar y cargar en el data warehouse y en la capa de acceso a la información los datos operacionales y/o externos.

Estructura de un Data Warehouse

La estructura de un data warehouse se caracteriza por los diferentes niveles de esquematización y detalle de los datos que se encuentran en él.

1. Detalle de los datos actuales

Reflejan los acontecimientos más recientes, las últimas informaciones generadas por los sistemas de producción de la organización. El nivel de detalle no tiene por qué ser el mismo que el de los sistemas de producción, ya que los datos pueden ser fruto de alguna agregación o de una simplificación de los datos originales.

Una agregación es una partición horizontal de una relación según los valores de los atributos, seguida de una agrupación mediante una función de cálculo (suma, media, producto, etc)

2. Detalle de datos antiguos

Están almacenados en un nivel de detalle consistente con los datos detallados actuales, esto significa que si los datos actuales hacen referencia a ventas diarias en el año actual, los datos historiados contienen las ventas de años anteriores en el nivel de detalle de día también.

3. Datos resumidos

Son datos obtenidos como resultado de un proceso de síntesis de los datos actuales. Lo que se tiene entonces son datos agregados o resumidos. Por ejemplo, se entiende mejor la evolución de las ventas si se la presenta resumida por semanas que de manera diaria.

4. Metadatos

Ofrecen información descriptiva sobre el contexto, la calidad, la condición y las características de los datos. El metadato se sitúa en una dimensión diferente a la de los otros datos en el data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional.