Random Forest es un modelo de machine learning de aprendizaje supervisado para clasificación. Es un algoritmo predictivo que usa la técnica de Bagging para combinar diferentes árboles de decisión, donde cada árbol es construido con observaciones y variables aleatorias.
En forma resumida sigue este proceso:
o
Selecciona individuos al azar (usando muestreo
con reemplazo) para crear diferentes sets de datos.
o
Crea un árbol de decisión con cada dataset de
datos, obteniendo diferentes árboles, ya que cada dataset contiene diferentes
observaciones y diferentes variables en cada nodo.
o
Al crear los árboles se eligen variables al
azar en cada nodo del árbol, dejando crecer el árbol en profundidad, es decir,
sin podar.
o Predice los nuevos datos usando el "voto mayoritario", donde clasificará como "positivo" si la mayoría de los arboles predicen la observación como positiva.
En resumen, Random Forest es un tipo de Ensamble en Machine Learning en donde combinaremos diversos árboles de decisión y la salida de cada uno se contará como “un voto” y la opción más votada será la respuesta del Bosque Aleatorio.
1. ¿cómo funciona el Random Forest?
- Seleccionamos k features (columnas o variables) de las m totales (siendo k menor a m) y creamos un árbol de decisión con esas k características.
- Creamos n árboles variando siempre la cantidad de k features y también podríamos variar la cantidad de muestras que pasamos a esos árboles (esto es conocido como “bootstrap sample”)
- Tomamos cada uno de los n árboles y le pedimos que hagan una misma clasificación. Guardamos el resultado de cada árbol obteniendo n salidas.
- Calculamos los votos obtenidos para cada “clase” seleccionada y consideraremos a la más votada como la clasificación final de nuestro “bosque”.
No hay comentarios:
Publicar un comentario