El Blog de Ana Buigues » Business Intelligence http://anabuigues.com Wed, 07 Dec 2011 16:07:47 +0000 es-ES hourly 1 http://wordpress.org/?v=3.4 Técnicas de explotación de un Data Warehouse http://anabuigues.com/2010/06/16/tecnicas-de-explotacion-de-un-data-warehouse/ http://anabuigues.com/2010/06/16/tecnicas-de-explotacion-de-un-data-warehouse/#comments Wed, 16 Jun 2010 15:44:46 +0000 Ana Buigues http://anabuigues.com/?p=407 La construcción de un data warehouse es un medio, no un fin en sí mismo. El fin es la necesidad de realizar análisis y toma de decisiones a través del uso de esa fuente de datos.

Dependiendo de lo requisitos de análisis que planteé la explotación, podemos hablar de diferentes técnicas:

1. Query & Reporting

Consulta y reporte es el término general para referirse a una técnica de explotación de bases de datos que ofrece a las organizaciones acceso a medida a los datos (query) y capacidades de construcción de informes (reporting) para los usuarios finales. Estos informes incluyen datos de detalle, de gran volumen y con un formato que soporta imágenes, varios tipos de gráficos, tablas, etc, que pueden ser consultados por herramientas de usuario final.

Permite:

  • A los usuarios poco expertos solicitar la ejecución de informes o consultas según unos parámetros determinados.
  • A los usuarios con cierta experiencia hacer consultas más flexibles mediante una aplicación que proporcione una interfaz gráfica de ayuda.
  • A los usuarios altamente experimentados puedan escribir, total o parcialmente la consulta en un lenguaje de interrogación de datos.

2. Análisis multidimensional OLAP

Se define OLAP como la consolidación, visualización y el análisis de datos de acuerdo con múltiples dimensiones. Se puede hablar de OLAP como de una tecnología de explotación de bases de datos que facilita la visualización y el análisis multidimensional de los datos.

El análisis multidimensional consiste en analizar los datos que hacen referencia a hechos desde la perspectiva de sus componentes o dimensiones, abarcando también los diferentes niveles que puedan tener las respectivas dimensiones.

El análisis multidimensional se apoya en una visión conceptual multidimensional (cubo o hipercubo) de los datos para permitir a los sistemas OLAP:

  • Soportar requisitos complejos de análisis.
  • Analizar datos desde diferentes perspectivas (dimensiones)
  • Soportar análisis contra un volumen considerable de datos.

Representación de los datos mediante un cubo OLAP:

3. Data Mining

El término data mining o minería de datos se utiliza para hacer referencia a una técnica de análisis de datos cuyo objetio principal es el descubrimiento de conocimiento que se encuentra en los datos y que no es apreciable de manera directa. La minería de datos supone la búsqueda de similitudes, patrones generales y en general relaciones no obvias en los datos, con el objetivo de transformar la información disponible en conocimiento útil de negocio.

El data mining en vez de basarse en métricas de negocio o en información altamente agregada, explota la información detallada del almacén de datos.

No siempre es necesario disponer de un data warehouse para hacer data mining, pero aporta al data mining una fuente de datos de mayor calidad para poder trabajar.

]]>
http://anabuigues.com/2010/06/16/tecnicas-de-explotacion-de-un-data-warehouse/feed/ 1
Data Mart y Data Warehouse http://anabuigues.com/2010/04/19/data-mart-y-data-warehouse/ http://anabuigues.com/2010/04/19/data-mart-y-data-warehouse/#comments Mon, 19 Apr 2010 21:24:03 +0000 Ana Buigues http://anabuigues.com/?p=396 Data warehouse y data martsUn Data Mart cumple los mismos principios que un Data Warehouse, construir un repositorio de datos único, consistente, fiable y de fácil acceso.

Entonces ¿Qué diferencia hay entre un data warehouse y un data mart? Su alcance. El data mart está pensado para cubrir las necesidades de un grupo de trabajo o de un determinado departamento dentro de la organización, en cambio, el ámbito de un data warehouse es la organización en su conjunto. Se caracterizan por disponer la una estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.

Supone una buena opción para pequeñas y medianas empresas que no puedan afrontar el coste de poner en marcha un Data Warehouse. La escalabilidad de los data marts hacia el data warehouse puede ser una solución si el número de data marts aumenta considerablemente.

Clases de Data Marts

Existen dos tipos de data marts:

1. Data Marts Dependientes

Los datos que se utilizan para poblar el data mart provienen del data warehouse. Esta estrategia es particularmente apropiada cuando el data warehouse crece muy rápidamente y los distintos departamentos requieren sólo una pequeña porción de los datos contenidos en él.

2. Data Marts Independientes

Los datos que se utilizan para poblar el data mart provienen de los sistemas operacionales y/o fuentes externas.

Problemática:

  • El hecho de tener varios data marts independientes, sin ningún tipo de integración, puede hacer que las tareas de administración y mantenimiento se conviertan en un lastre.
  • Se puede dar el caso de que algunos data marts necesiten los mismos datos para dar respuesta a determinadas preguntas, por lo que tenemos redundancia de datos, ya que cada data mart se alimenta con sus procesos de extracción y transformación propios.

]]> http://anabuigues.com/2010/04/19/data-mart-y-data-warehouse/feed/ 17 Arquitectura de un Data Warehouse http://anabuigues.com/2010/03/05/arquitectura-de-un-data-warehouse/ http://anabuigues.com/2010/03/05/arquitectura-de-un-data-warehouse/#comments Fri, 05 Mar 2010 19:08:42 +0000 Ana Buigues http://anabuigues.com/?p=346 Una arquitectura de Data Warehouse es una forma de representar la estructura global de los datos, la comunicación, los procesos y la presentación al usuario final. La arquitectura está constituida por las siguientes partes interconectadas:

Arquitectura Data Warehouse

Elementos que constituyen la arquitectura de un Data Warehouse

Explicamos uno a uno la función de cada nivel.

1. Base de datos operacional y base de datos externa

Las organizaciones adquieren datos de bases de datos externas a la propia organización, que incluyen datos demográficos, económicos, datos sobre la competencia, etc.

Mediante el proceso de data warehousing se extrae la información que está en la bases de datos operacionales y se mezcla con otras fuentes de datos. Enriquecemos la información.

2. Nivel de acceso a la información

Es la capa con la que trata el usuario final. La información almacenada se convierte en información fácil y transparente para las herramientas que utlizan los usuarios. Se obtienen informes, gráficos, diagramas, etc.

3. Nivel de acceso a los datos

Comunica el nivel de acceso a la información con el nivel operacional, es el responsable de la interfaz entre las herramientas de acceso a la información y las bases de datos.

La clave de este nivel está en proveer al usuario de un acceso universal a los datos, es decir, que los usuarios sin tener en cuenta la ubicación de los datos o la herramienta de acceso a la información, deberían ser capaces de acceder a cualquier dato del data warehouse que les fuera necesario para realizar su trabajo.

4. Nivel de directorio de datos  (metadatos)

Para proveer de un acceso universal, es absolutamente necesario mantener alguna clase de directorio de datos o repositorio de información de metadato que ayude a mantener un control sobre los datos. El metadato aporta información sobre los datos de la organización, de dónde proviene, qué formato tenía, cuál era su significado y si se trata de un agregado, cómo se ha calculado éste.

Para mantener un almacén completamente funcional, es necesario disponer de una amplia variedad de metadatos, información sobre las vistas de datos para los usuarios finales y sobre las bases de datos operacionales.

5. Nivel de gestión de procesos

Este nivel tiene que ver con la planificación de las tareas que se deben realizar, no sólo para construir, sino también para mantener el data warehouse y la información del directorio de datos. Es  o el controlador de alto nivel de los procesos que se han de llevar a cabo para que el data warehouse permanezca actualizado.

6. Nivel de mensaje de la aplicación

Este nivel es el encargado del transporte de la información a lo largo del entorno, se puede pensar en él como un middleware.

7. Nivel Data Warehouse (físico)

Es el núclo del sistema, el repositorio central de información donde los datos actuales usados principalmente con fines informacionales residen. En el data warehouse físico se almacenan copias de los datos operacionales y/o externos, en una estructura que optimiza su acceso para la consulta y que es muy flexible.

8. Nivel de organización de datos

Incluye todos los procesos necesarios para seleccionar, editar, resumir, combinar y cargar en el data warehouse y en la capa de acceso a la información los datos operacionales y/o externos.

Estructura de un Data Warehouse

La estructura de un data warehouse se caracteriza por los diferentes niveles de esquematización y detalle de los datos que se encuentran en él.

1. Detalle de los datos actuales

Reflejan los acontecimientos más recientes, las últimas informaciones generadas por los sistemas de producción de la organización. El nivel de detalle no tiene por qué ser el mismo que el de los sistemas de producción, ya que los datos pueden ser fruto de alguna agregación o de una simplificación de los datos originales.

Una agregación es una partición horizontal de una relación según los valores de los atributos, seguida de una agrupación mediante una función de cálculo (suma, media, producto, etc)

2. Detalle de datos antiguos

Están almacenados en un nivel de detalle consistente con los datos detallados actuales, esto significa que si los datos actuales hacen referencia a ventas diarias en el año actual, los datos historiados contienen las ventas de años anteriores en el nivel de detalle de día también.

3. Datos resumidos

Son datos obtenidos como resultado de un proceso de síntesis de los datos actuales. Lo que se tiene entonces son datos agregados o resumidos. Por ejemplo, se entiende mejor la evolución de las ventas si se la presenta resumida por semanas que de manera diaria.

4. Metadatos

Ofrecen información descriptiva sobre el contexto, la calidad, la condición y las características de los datos. El metadato se sitúa en una dimensión diferente a la de los otros datos en el data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional.

]]>
http://anabuigues.com/2010/03/05/arquitectura-de-un-data-warehouse/feed/ 20
Data Warehouse y Data Warehousing http://anabuigues.com/2010/02/08/data-warehouse-y-data-warehousing/ http://anabuigues.com/2010/02/08/data-warehouse-y-data-warehousing/#comments Mon, 08 Feb 2010 06:51:13 +0000 Ana Buigues http://anabuigues.com/?p=162 Los sistemas Data Warehouse o sistemas Data Warehousing surgen como un mecanismo de apoyo para la ayuda de toma de decisiones, en el que los datos de una organización se transforman en información estratégica, a la que además se puede acceder de manera sencilla y en el momento que se necesita. Con esta tecnología, los datos operacionales son una herramienta competitiva para las organizaciones. Se permite a los usuarios finales examinar los datos, realizar análisis y detectar tendencias, llevar a cabo el seguimiento de medidas críticas, producir informes con rapidez y detectar tendencias. De esta forma obtenemos una mayor ventaja competitiva en la organización, pudiéndonos anticipar a diversas situaciones.

Los sistemas que contienen datos operacionales (son los datos que se generan en las transacciones diarias de la organización) contienen información que es útil para los analistas de negocio. Por ejemplo, los análistas pueden usar esta información para ver que productos se vendieron más en cierta población durante una época del año.

Pero surgen varios problemas cuando los analistas de negocio intentan acceder directamente a estos datos:

  • Puede que los analistas no tengan el conocimiento suficiente para obtener los datos.
  • Los datos operacionales pueden no estar en el mejor formato para ser usados con propósito de análisis.
  • La ausencia de una visión histórica hace difícil el análisis de los datos.

Un proceso de Data Warehousing soluciona estos problemas creando almacenes de datos informacionales. Los datos informacionales son datos que han sido extraídos de los datos operacionales y transformados para la toma de decisiones. Por ejemplo, limpiar los datos, realizar cálculos sobre éstos, separarlos de los datos operacionales…

Data Warehousing es el proceso de extraer y filtrar los datos de las operaciones comunes a la organización, procedentes de los distintos sistemas de información y/o sistemas externos, para transformarlos, integrarlos y almacenarlos en un depósito o almacen de datos (Data Warehouse) con el fin de acceder a ellos para dar soporte en el proceso de toma de decisiones de una organización.

El objetivo es convertir los datos operacionales en información relacionada y estructurada, homogénea, de mayor calidad y que se mantenga en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suelen mantener con un mayor nivel de detalle los datos actuales y de manera más agregada los datos anteriores.

Un punto fuerte del Data Warehousing es la meta-información. Cada dato está identificado por una descripción, un origen, historial o forma inicial y sucesivas. Este conjunto de datos sobre los datos es lo que se denomina como metadatos. Un metadato proporciona el contenido semántico necesario para que los datos puedan ser interpretados.

¿Qué diferencia hay entre Data Warehousing y Data Warehouse?

Cuando queremos hacer referencia al proceso global en el que a partir de diferentes fuentes de datos (SGDB, ficheros planos, .csv, etc.) se crea  y se mantiene un almacén central de datos y que puede ser consultado por herramientas con un propósito de análisis concreto y de ayuda a la toma de decisiones, se debe utilizar el termino de Data Warehousing.

Para referirnos no al proceso en sí, sino al repositorio central de datos sobre el que se construye el sistema y que integra todos los datos de la organización desde el punto de vista del usuario y no de los procesos, nos estamos refiriendo a Data Warehouse.

Características de un Data Warehouse

Un Data Warehouse se caracteriza por ser un conjunto de datos orientados a temas, integrado, variante en el tiempo y no volátiles, que dan soporte al proceso de toma de decisiones. Vamos a analizar esto por partes.

1. Orientado a temas

Orientado a los temas principales de la organización. La información se clasifica en función de los aspectos que son de interés para la organización. Se organizan por temas para facilitar el acceso y el entendimiento por parte de los usuarios finales. Por ejemplo, tenemos información que proviene de los datos operacionales de distintas áreas como son: prestamos, ahorros, nóminas y créditos. Pues los temas que nos pueden interesar son: clientes, productos, vendedores y actividad.

2. Integrado

En un sistema operacional no hay integración, pero en un Data Warehouse todos los datos se encuentran integrados. Esta integración se muestra de diferentes maneras: consistencia en codificación de estructuras, en unidades de medida de las variables, en múltiples fuentes, en convenciones de nombres, en atributos físicos de los datos etc…

3. Variante en el tiempo

En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente, por el contrario, la información almacenada en el Data Warehouse refleja un histórico de los datos en un horizonte de tiempo mucho más amplio (del orden de años). De esta forma podemos detectar tendencias en el tiempo.

4. No volátil

El Data Warehouse existe para ser leído y no para ser modificado, la información es por tanto permanente, la actualización del Data Warehouse significa la incorporación de los últimos valores que tomaron las distintas variables contenidas en él, sin ningún tipo de acción sobre lo que ya existía. Los datos más recientes no sustituyen a los precedentes, sino que suelen mantenerse con un mayor nivel de detalle. Por ejemplo: en el año actual se guardarían las ventas diarias de los diferentes artículos, mientras que los datos anteriores se mantendrían accesibles de manera agregada.

]]>
http://anabuigues.com/2010/02/08/data-warehouse-y-data-warehousing/feed/ 31
Data Warehouse y las bases de datos operacionales http://anabuigues.com/2010/01/14/data-warehouse-y-las-bases-de-datos-operacionales/ http://anabuigues.com/2010/01/14/data-warehouse-y-las-bases-de-datos-operacionales/#comments Thu, 14 Jan 2010 15:11:49 +0000 Ana Buigues http://anabuigues.com/?p=165 En un Data Warehouse se almacena toda la información de interés para una organización que luego queramos analizar, mientras que, en una base de datos operacional se almacenan todas las transacciones de la organización, tanto datos útiles como no útiles.

Vamos a ver en que se diferencian una base de datos operacional de un Data Warehouse:

Aspectos BD operacional Data Warehouse
Objetivo De tipo operativo (operaciones del día a día) Análisis y toma de decisiones
Proceso De transacciones. Repetitivo y conocido. De consultas masivas. Puntual y no conocido.
Actividad Predomina la actualización Predomina la consulta
Rendimiento Importancia del tiempo de respuesta de la transacción instantánea Importancia de la respuesta masiva.
Explotación Explotación de la información relacionada con la operativa de cada aplicación Explotación de toda la información interna y externa relacionada con el negocio
Volatilidad Actualizable Carga, pero no actualización
Usuarios Usuarios de perfiles medios o bajos Usuarios de perfiles altos
Organización Estructura normalmente relacional Visión multidimensional
Granularidad Datos generales desagregados, al detalle Datos en distintos niveles de detalle y agregación
Horizonte histórico 30 a 90 días 5 a 10 años
Perspectiva Importancia del dato actual Importancia del dato histórico
Volumen de datos Pequeño/medio. Del orden del Mb a Gb. Medio/grande. Del orden del Gb a Tb.
]]>
http://anabuigues.com/2010/01/14/data-warehouse-y-las-bases-de-datos-operacionales/feed/ 9