Árboles de Decisión

Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolución de un problema.
Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en ultimas es una decisión que es tomada a partir de las entradas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos. Se utilizan más los valores discretos por simplicidad, cuando se utilizan valores discretos en las funciones de una aplicación se denomina clasificación y cuando se utilizan los continuos se denomina regresión.
Un árbol de decisión lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar así una decisión. El árbol de decisión suele contener nodos internos, nodos de probabilidad, nodos hojas y arcos. Un nodo interno contiene un test sobre algún valor de una de las propiedades. Un nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema, este tipo de nodos es redondo, los demás son cuadrados. Un nodo hoja representa el valor que devolverá el árbol de decisión. y finalmente la ramas brindan los posibles caminos que se tienen de acuerdo a la decisión tomada.
Los árboles
de decisión se utilizan para descubrir patrones en los datos, estas
pautas se recogen y se organizan en modelos que se utilizarán posteriormente para hacer
predicciones.
Los modelos pueden ser descritos como gráficos o árboles (los
árboles son los gráficos en los que cualquiera de los dos nodos están
conectados por exactamente un camino). Cada nodo es un camino
elegido sobre la base de las pruebas realizadas en los atributos de
entrada, hasta que al final de una "hoja" un nodo es alcanzado. La "hoja" nodo
representa una decisión y es usado como el resultado previsto para nuevos y desconocidos datos venideros.
Existen 2 tipos de árboles de decisión:
Sentinel utiliza dos tipos de árboles de decisión, árboles de
clasificación y árboles de regresión. Los árboles de clasificación se usan para
predecir las categorías de regresión, mientras que los árboles de decisión se usan
para predecir valores.
Árboles de Clasificación:
-Algoritmo C5.0
Incorpora:
- Ponderación de errores de clasificación y los costos.
- Generación y combinación de múltiples modelos para mejorar la precisión.
- Selección de los atributos más útiles y los utiliza para generar el modo.
Ejemplo: Las clasificaciones serían: Fraude, No Fraude, consecuentemente el árbol predice: Fraude
Árboles de Regresión:
Como la detección del fraude es un problema de clasificación binaria
(2 clases: Fraude, No Fraude) podemos utilizar los valores numéricos
de salida y un umbral para determinar la clase.
Por ejemplo: Si los valores de salida son entre 0 y 1, donde 1 = Fraude y 0 = No Fraude. Si ell árbol de regresión predice: 0.6 y el umbral se fija en 0.5, entonces
la transacción se clasificará como Fraude.
|