viernes, 24 de abril de 2015

WEKA


Introducción

WEKA es una recopilación de algoritmos para aprendizaje automático y herramientas de preprocesamiento de datos. Además proporciona soporte para todo el proceso experimental: evaluación, preparación y visualización de datos y resultados.

Definición

Weka es una plataforma de software para el aprendizaje automático y la minería de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es software libre distribuido bajo la licencia GNU-GPL.

Funcionalidad

A: Desde la línea de comando Cada uno de los algoritmos incluidos en WEKA se pueden invocar desde la línea de comandos de MS-DOS como programas individuales. Los resultados se muestran únicamente en modo texto. 
B: Desde uno de los interfaces de usuario WEKA dispone de 4 interfaces de usuario distintos, que se pueden elegir después de lanzar la aplicación completa. Los interfaces son: · Simple CLI (command line interface): interfaz en modo texto. · Explorer: interfaz gráfico básico. · Experimenter: interfaz gráfico con posibilidad de comparar el funcionamiento de diversos algoritmos de aprendizaje. · KnowledgeFlow: interfaz gráfico que permite interconectar distintos algoritmos de aprendizaje en cascada, creando una red.

C: Creando un programa Java La tercera forma en la que se puede utilizar el programa WEKA es mediante la creación de un programa Java que llame a las funciones que se desee. El código fuente de WEKA está disponible, con lo que se puede utilizar para crear un programa propio.

Características

Weka se denomina a si mismo un conjunto de Librerías para tareas de minería de datos. Las librerías pueden ser llamadas desde la interficie de weka o desde tus propias clases Java. Weka contiene herramientas para diferentes tareas básicas:
  • Preprocess: Multitud de herramientas para el preprocesamiento de los datos (como por ejemplo discretización de variables).
  • Classify: Algoritmos de clasificación, distribuidos por paquetes, como por ejemplo ID3 o C4.5
  • Cluster: Diferentes algoritmos de segmentación como el simple k-means.
  • Associate: Algoritmos para encontrar relaciones de asociación entre variables (Apriori entre otros).
  • Select atributtes: Aquí, una vez cargados los datos, Weka es capaz de buscar por nosotros las mejores variables del modelo.
  • Visualize: Herramienta de visualización de datos en los ejes cartesianos, con muchas posibilidades.

Ventajas y desventajas

Ventajas 

Los puntos fuertes de Weka son:


  • Está disponible libremente bajo la licencia publica general de GNU.
  • Es muy portable porque está completamente implementado en Java  y puede correr en casi cualquier plataforma.
  •  Contiene una extensa colección de técnicas para pre procesamiento de datos y modelado.
  •  Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.

Desventajas 

Un área importante que actualmente no cubren los algoritmos incluidos en Weka es el modelado de secuencias.

Bibliografìas:
Sanchez, J. "Programa Open Source WEKA".2011.(en linea).:http://es.slideshare.net/jculacio/weka-7488176. 24/04/2015
Maldonado, M."Weka".2011.(en linea).https://maricelamaldonado.wordpress.com/2011/03/16/weka/.24/04/2015
García,D."Manual de Weka".2004.(en  linea).http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf.24/04/2015