¿ Por que usar mineria de datos?

Esta es una tecnologia emergente la cual ayuda a los procesos de toda empresa en distintas funciones.

¿Para que sirve?

tiene utilidad empresarial,sirve para predecir y describir cosas.

Campos de aplicación de la minería de datos

Puede ser útil en prácticamente todas las facetas de la actividad humana por ejemplo en las empresas ya que estas pueden optimizar procesos y mejorar sus productos y ventas.

beneficios de minería de datos

Descubre relaciones entre datos, mediante modelos avanzados y reglas de induccion puede examinar grandes cantidades de datos y encontrar patrones dificiles de identificar a simple vista.

¿Que se busca con minería de datos?

Normas,tendencias y patrones desde los cuales lo programas mineros realizaran en el proceso de selección y búsqueda en los datos históricos.

domingo, 17 de junio de 2012

¿Por qué usar data mining?

Si bien la data mining se presenta como una tecnología emergente, posee ciertas ventajas, como estas:


1-resulta un buen punto de encuentro entre los investigadores y las personas de negocios.
Este punto hace referencia a que aparece nueva tecnología la cual muchas veces es adquirida por empresas grandes las cuales financian estos proyectos.

2- ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios.
Prácticamente esto apoya al punto anterior ya que cuando un proyecto es bueno este es financiado por una empresa la cual adquiere más dinero del que invirtió y gracias a esta tecnología una empresa puede abrir otras oportunidades en el mercado.

3- trabajar con esta tecnología implica cuidar un sin número de detalles debido a que el producto final involucra "toma de decisiones".
 Tienes la tecnología y esta te abrió paso en el mercado, también esta crea un producto el cual tu estas ofreciendo, pero hay que ver que tan efectiva fue la implementación la empresa ¿va creciendo o decreciendo? , ha eso hace referencia el punto 3.
4- contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales y de e-Business.

5- permite a los usuarios dar prioridad a decisiones y acciones, mostrando factores que tienen un mayor en un objetivo, también muestra qué segmentos de clientes son desechables y qué unidades de negocio son sobrepasados y el ¿por qué?
 Hace referencia a que gracias a Data Mining solo hay que preocuparse de las tomas de decisiones ya que gracias a esta tecnología va mostrando las diversas ventajas y desventajas como son algunas señaladas en este punto. (Punto 5)
6- proporciona poderes de decisión a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir las acciones y los resultados de la mejor forma.
Gracias a Data Mining se pueden dividir los problemas en distintos sectores y esto provocara que en diversos sectores deba haber distintos grupos de trabajo especializados en el ámbito de ese problema para así optimizar el tiempo y recursos.

7- genera Modelos descriptivos: en un contexto de objetivos definidos en los negocios permite a empresas, sin tener en cuenta la industria o el tamaño, explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos).

8 genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del proceso del Data Mining sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes, información electrónica compartida, embebidos en aplicaciones, etc.) para guiar la estrategia y planificación de la empresa. 
Glosario:
Outputs: Producto que resulta de la combinación de los diversos factores o inputs de producción.
Inputs: sistema de entrada de información..-Elemento que participa en un determinado proceso productivo. 'INPUT' también aparece en estas entradas..


.


  logramos observar la imagen de la izquierda una empresa sin tecnología Data Mining y a la derecha una empresa con tecnología Data Mining es decisión de ustedes cual funciona mejor


miércoles, 6 de junio de 2012

Etapas principales del proceso de mineria de datos.

Los principales procesos de la minería de datos son:


• Filtrado de datos.
• Selección de Variables.
• Extracción de Conocimiento.
• Interpretación y Evaluación.

1)Filtrado de datos: se filtran los datos (de forma que se eliminan
valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor
velocidad de respuesta del proceso), o se reducen el número de valores posibles
(mediante redondeo, clustering,...).


2) Selección de variable: La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema.

Los métodos para la selección de características son básicamente dos:
• Aquellos basados en la elección de los mejores atributos del problema,
• Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

3)Algoritmos de Extracción de Conocimiento: Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.

4)Interpretación y evaluación: Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.
En el caso de haber obtenido varios modelos mediante el uso de distintas
técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor
al problema. Si ninguno de los modelos alcanza los resultados esperados, debe
alterarse alguno de los pasos anteriores para generar nuevos modelos.


sábado, 2 de junio de 2012

Reglas de asociación

Las reglas de asociación en la minería de datos se utilizan para encontrar hechos que ocurren en común dentro de un conjunto de datos. Dicho de otra manera que debe ocurrir ciertas condiciones para que se produzca cierta condición.

Para encontrar estas reglas de debe considerar cada posible combinación de condiciones para que halla una consecuencia. Al hablar de reglas de asociación también cumple un rol importante la cobertura o también llamado soporte que es el número de instancias predichas correctamente y la precisión o confianza que es la proporción de numero de instancias que es aplicada la regla.

                                                           {Confianza}       →         {Soporte}
                                                                           {X}       →        {Y}


Reglas significativas de soporte y confianza

Se tiene la siguiente tabla:

Ambiente Temperatura Humedad Viento Clase
soleado alta alta no N
soleado alta alta si N
nublado alta alta no P
lluvia media alta no P
lluvia baja normal no P
lluvia baja normal si N
nublado baja normal si P
soleado media alta no N
soleado baja normal no P
lluvia media normal no P
soleado media normal si P
nublado media alta si P
nublado alta normal no P
lluvia media alta si N

Se llama ítem a la cantidad de condiciones que se encuentran en este caso serian 4 ambiente, temperatura, humedad y viento

En esta tabla anterior se dan las siguientes probabilidades y el soporte:

humedad=normal
y
viento=no
entonces
clase=P
4/4
humedad=normal
y
clase=P
entonces
viento=no
4/6
viento=no
y
clase=P
entonces
humedad=normal
4/6
humedad=normal
entonces
viento=no
y
clase=P
4/7
viento=no
entonces
clase=P
y
humedad=normal
4/8
clase=P
entonces
viento=no
y
humedad=normal
4/9

Eso solo son algunas ya que en este ejemplo existen cerca de 55 reglas de asociación

sábado, 26 de mayo de 2012

Herramientas primitivas de la minería de datos

Data mining a lo largo de la historia ha sido llamado de distintas maneras. A partir de los años sesenta los estadísticos utilizaban el termino de data fishing (pesca de datos) o data dredging (filtración de datos) con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido.

En 1989, Gregory Piatetsky-Shapiro utilizo el termino Knowledge Discovery in Databases (descubrimiento de conocimiento en base de datos) mas conocido pro sus siglas KDD, sin embargo al usarlo indistintamente se entra en un error porque  el proceso de data mining es la aplicación de algoritmos para extraer patrones de datos y KDD es el proceso completo.

El termino de Data mining se empezó a usar a partir de los años noventa además también se uso data Archaeology (arqueología de datos), Information Harvesting (recolección de información), Information Discovery (Descubrimiento de Información), Knowledge Extraction (Extracción de conocimiento), entre otros. Antes de esto existió otro termino que era Database MiningTM, pero esta frase fue registrada por la empresa HNC, y por ese motivo los investigadores decidieron cambiarlo por data mining que es el termino que mas se usa actualmente.

sábado, 19 de mayo de 2012

Áreas relacionadas con la minería de datos.

" la minería de datos es una actividad en expansión aplicada cada vez en más disciplinas, que han visto la utilidad del estudio de datos para apoyar la toma de decisiones. Especial énfasis está teniendo en aquellas áreas relacionadas con la Economía, mediante la Econometría, y dentro del campo de inteligencia de los negocios"1
Algunas de las tareas mas importantes de la minería de datos incluyen la identificación de aplicaciones para las técnicas existentes, y desarrollar nuevas técnicas para dominios tradicionales o  de nueva aplicación, como el comercio electrónico y la bioinformatica .
Existen numerosas áreas  donde la minería de datos se puede aplicar, practicamente a todas las actividades humanas que generen datos:


_Comercio y banca:  Segmentación de clientes, previsión de ventas, análisis de riesgos.
_Medicina y farmacia: diagnostico de enfermedades y la efectividad de tratamientos.
Ejemplo 
 "Supongamos un hospital donde hay unos datos de pacientes y un diagnóstico. Se puede tener una tabla de datos que incluya por ejemplo datos como Paciente / Edad / Glóbulos rojos / Glóbulos blancos / Tensión / Azúcar / Diagnóstico. ¿Para qué le serviría la minería de datos al hospital? Pues por ejemplo para hacer un prediagnóstico de la dolencia que con mayor probabilidad pueda tener un paciente en base a sus datos asociados. Un tipo de dolencia se dice que es un dato discreto porque solo puede tomar unos valores concretos (por ejemplo que haya 30 tipos de dolencias). Estudiando y tratando los datos se pueden llegar a conclusiones, por ejemplo que si un paciente tiene más de 60 años, los glóbulos blancos muy altos y el azúcar alto es muy probable que esté desarrollando diabetes. Si el paciente corresponde a ese perfil, la decisión puede ser hacer unas pruebas específicas o poner cierto tratamiento preventivo"2


_Seguridad y detección de fraudes: reconocimiento facial, identificación biometricas, accesos a redes no permitidos etc.
_Recuperación de información no numérica: minería de texto, minería de web, búsqueda e identificación de imagenes, video, voz y texto en bases de datos multimedia.
_Astronomía: identificacion de nuevas galaxias y estrellas.
_Geología, minería, agricultura y pesca: identificacion de áreas de uso para distintos cultivos o de pesca o de explotación minería en bases de datos de imagenes satelitales.
_Ciencias sociales: Estudios de los flujos de la opinión publica, identificar barrios con conflictos en funcion de valores sociodemograficos.
_Ciencias ambientales: Identificacion de modelos de funcionamientos de ecosistemas naturales y/o artificiales para mejorar su observacion, gestión y/o control.


sábado, 12 de mayo de 2012

Origen y propósito de la minería de datos

En general, la estadística es la primera ciencia que históricamente extrae información de los datos básicamente mediante metodologías procedentes de las matemáticas. Cuando se empezó a usar los ordenadores como apoyo para esta tarea surgió el concepto de Machine learning traducido como aprendizaje automático. Posteriormente con el incremento de tamaño y la estructuración de las datos es  cuando se empieza a hablar de minería de datos. La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology
con la idea de encontrar correlaciones.
 A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data mining, finales de los años ochenta
sólo existían un par de empresas dedicadas a esta tecnología; actualmente existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones.

Propósito de la minería de datos:


-Explorar los datos se encuentran en las profundidades de las bases de
datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.
-En algunos casos, los datos se consolidan en un almacén de datos y en
mercados de datos; en otros, se mantienen en servidores de Internet e intranet.

-Las herramientas de la minería de datos ayudan a extraer el mineral de
la información enterrado en archivos corporativos o en registros públicos,
archivados
-Clasificar un dato dentro de una de las clases categóricas predefinidas, preguntas tales como: ¿Cual es el riesgo de conceder un crédito a este cliente?
-Agrupar registros, observaciones o casos en clases de objetos similares.
-Generar reglas en referencia al descubrimiento de relaciones de asociación

sábado, 5 de mayo de 2012

Concepto de dato, información y conocimiento.

Antes de profundizar en el tema de la minería de datos es necesario que se tengan en conocimientos los siguientes conceptos:
1°Dato: Se denomina dato a los elemementos principales o que respaldan la información, estos datos estarán conformados por símbolos (letras. Números, dibujos, señas, gestos).
Los datos son símbolos que describen condiciones, hechos, situaciones o valores.
Se caracterizan por no contener ninguna información.
Un ejemplo:
Si el sujeto “X” dice 18 es un dato al cual si se le agrega "años de edad" entonces se convierte en información.

2.- conceptos de información:
Esta se constituye por un grupo de datos ya supervisados y ordenados, que sirven para construir un mensaje basado en cierto tema. La información permite resolver problemas y tomar decisiones, ya que su ocupa miento racional es la base del conocimiento (el cual será el siguiente tema)
Ejemplo de aplicación de los conceptos de dato e información:





Se logra  ver que en la columna clave dice 1 , 2 , 3 , 4 ,5 . estos son datos al igual que en la columna siguiente la que dice nombre y aparece una gran cantidad de ellos , por ultimo se muestra una ultima columna que dice edad  estos elementos separados son datos pero si se juntan estos se convierten en información.

Ejemplo:
Si se toma la clave 4 :
 n esa clave se encuentra pato y tiene 5 años <---- información.

Lo que se obtiene de conocer datos e informaciones es el conocimiento.

3.- concepto de conocimiento:
el conocimiento es un conjunto de información almacenada mediante la experiencia o el aprendizaje.
Si se ve de un punto más amplio el conocimiento es (son) múltiples datos relacionados que, al ser tomados por si solos, poseen un menor valor cuantitativo.

De manera más sencilla:
La base de el conocimiento es la información pero la base de la información son los datos
Bueno. Un ejemplo clarísimo es el siguiente!

Tú sabes que el dólar tiene un valor de: $483. <---- conocimiento-
Información seria: que un amigo del sujeto “X” vio las noticias y te hablo de el valor del dólar y por ultimo el dato seria 483.

Bueno si se quiere llevar esto a la informática diaria o ocupacional:
 Se busca en Google: la palabra álgebra.
Se obtienen 81.900.000 resultados los cuales poseerán información basada en el dato “Álgebra” (el dato seria en este caso la palabra álgebra).


Google un motor de búsqueda basado en datos busca estos  y  muestra un pequeño resumen en la parte inferior del link para que se pueda observar si la información de la pagina tiene relación con el dato que se busco.