WEKA
Introducción
WEKA es una recopilación de algoritmos para
aprendizaje automático y herramientas de preprocesamiento de datos.
Además proporciona soporte para todo el proceso
experimental: evaluación, preparación y
visualización de datos y resultados.
Definición
Weka es una plataforma de software para el aprendizaje automático y la minería de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es software libre distribuido bajo la licencia GNU-GPL.Funcionalidad
A: Desde la línea de comando
Cada uno de los algoritmos incluidos en WEKA se pueden invocar desde la línea de
comandos de MS-DOS como programas individuales. Los resultados se muestran
únicamente en modo texto.
B: Desde uno de los interfaces de usuario
WEKA dispone de 4 interfaces de usuario distintos, que se pueden elegir después de
lanzar la aplicación completa. Los interfaces son:
· Simple CLI (command line interface): interfaz en modo texto.
· Explorer: interfaz gráfico básico.
· Experimenter: interfaz gráfico con posibilidad de comparar el funcionamiento de
diversos algoritmos de aprendizaje.
· KnowledgeFlow: interfaz gráfico que permite interconectar distintos algoritmos
de aprendizaje en cascada, creando una red.
C: Creando un programa Java
La tercera forma en la que se puede utilizar el programa WEKA es mediante la creación
de un programa Java que llame a las funciones que se desee. El código fuente de WEKA
está disponible, con lo que se puede utilizar para crear un programa propio.
Características
Weka se denomina a si mismo un conjunto de Librerías para tareas de minería de datos. Las librerías pueden ser llamadas desde la interficie de weka o desde tus propias clases Java. Weka contiene herramientas para diferentes tareas básicas:
- Preprocess: Multitud de herramientas para el preprocesamiento de los datos (como por ejemplo discretización de variables).
- Classify: Algoritmos de clasificación, distribuidos por paquetes, como por ejemplo ID3 o C4.5
- Cluster: Diferentes algoritmos de segmentación como el simple k-means.
- Associate: Algoritmos para encontrar relaciones de asociación entre variables (Apriori entre otros).
- Select atributtes: Aquí, una vez cargados los datos, Weka es capaz de buscar por nosotros las mejores variables del modelo.
- Visualize: Herramienta de visualización de datos en los ejes cartesianos, con muchas posibilidades.
Ventajas y desventajas
Ventajas
Los puntos fuertes de Weka son:
- Está disponible libremente bajo la licencia publica general de GNU.
- Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma.
- Contiene una extensa colección de técnicas para pre procesamiento de datos y modelado.
- Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario.
Desventajas
Un área importante que actualmente no cubren los
algoritmos incluidos en Weka es el modelado de secuencias.
Sanchez, J. "Programa Open Source WEKA".2011.(en linea).:http://es.slideshare.net/jculacio/weka-7488176. 24/04/2015
Maldonado, M."Weka".2011.(en linea).https://maricelamaldonado.wordpress.com/2011/03/16/weka/.24/04/2015
García,D."Manual de Weka".2004.(en linea).http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf.24/04/2015