jueves, 9 de diciembre de 2021

¿Qué es el teorema central del límite (TCL)?

El teorema del límite central es una teoría estadística que establece que, independientemente de cuál sea la distribución original de la población, al tomar muestras aleatorias de la población, la distribución de las medias o sumas de las muestras aleatorias se aproxima a una distribución normal, con una media igual a la media de la población, además, el TCL afirma que a medida que el tamaño de la muestra aumenta, la media muestral se acercará a la media de la población:

imagen Wikipedia

Ejemplo del teorema central del límite

Imaginemos que queremos analizar las rentabilidades medias históricas de los clientes de una empresa y sabemos que esa empresa tiene unos 2000 clientes. Pero no tenemos suficiente información como para analizar a los 2000 clientes. En este caso la rentabilidad media de los clientes de la compañía será la media poblacional.

Si aplicamos el Teorema Central del Límite podemos coger una muestra de estos 2000 clientes para realizar el análisis donde tengamos toda la información necesaria. La única limitación que tenemos es que en la muestra tiene que haber más de 30 clientes para que se cumpla el teorema. Entonces imaginemos que cogemos 50 clientes de manera aleatoria y repetimos el proceso varias veces. Los pasos a seguir serían los siguientes:

Elegimos la muestra de unos 50 clientes y obtenemos la rentabilidad media de la muestra.

Repetimos el paso anterior de manera continuada escogiendo 50 clientes y obtenemos la rentabilidad media.

La distribución de todas las rentabilidades medias de todas las muestras escogidas se aproximará a una distribución normal.

Las rentabilidades medias de todas las muestras seleccionadas se aproximará a la rentabilidad media del total de clientes de la compañía (2000 clientes) tal y como demuestra el teorema Central del Límite.


miércoles, 17 de febrero de 2021

Random Forest explicado de forma sencilla

Random Forest es un modelo de machine learning de aprendizaje supervisado para clasificación. Es un algoritmo predictivo que usa la técnica de Bagging para combinar diferentes árboles de decisión, donde cada árbol es construido con observaciones y variables aleatorias.

En forma resumida sigue este proceso:

o   Selecciona individuos al azar (usando muestreo con reemplazo) para crear diferentes sets de datos.

o   Crea un árbol de decisión con cada dataset de datos, obteniendo diferentes árboles, ya que cada dataset contiene diferentes observaciones y diferentes variables en cada nodo.

o   Al crear los árboles se eligen variables al azar en cada nodo del árbol, dejando crecer el árbol en profundidad, es decir, sin podar.

o   Predice los nuevos datos usando el "voto mayoritario", donde clasificará como "positivo" si la mayoría de los arboles predicen la observación como positiva.

En resumen, Random Forest es un tipo de Ensamble en Machine Learning en donde combinaremos diversos árboles de decisión y la salida de cada uno se contará como “un voto” y la opción más votada será la respuesta del Bosque Aleatorio.


1.     ¿cómo funciona el Random Forest?

  • Seleccionamos k features (columnas o variables) de las m totales (siendo k menor a m) y creamos un árbol de decisión con esas k características.
  • Creamos n árboles variando siempre la cantidad de k features y también podríamos variar la cantidad de muestras que pasamos a esos árboles (esto es conocido como “bootstrap sample”)
  • Tomamos cada uno de los n árboles y le pedimos que hagan una misma clasificación. Guardamos el resultado de cada árbol obteniendo n salidas.
  • Calculamos los votos obtenidos para cada “clase” seleccionada y consideraremos a la más votada como la clasificación final de nuestro “bosque”.

Recomendamos:

viernes, 15 de enero de 2021

Los mejores libros gratuitos para aprender Machine Learning y Data Science en 2021

A continuación os dejamos una lista de los mejores libros sobre técnicas estadísticas, data science y machine learning que están disponibles en internet para descargar directamente en pdf o similar. Actualizaremos esta entrada y crearemos nuevas listas con recursos gratuitos. 

Data Science and Machine Learning: Mathematical and Statistical Methods. Escrito por: D.P. Kroese, Z.I. Botev, T. Taimre, R. Vaisman, Chapman and Hall/CRC, Boca Raton, 2019.

Ver PDF

Causal Inference Book. Escrito por Miguel Hernán y Jamie Robins. Los aspectos fundamentales de la inferencia causal  en 300 páginas de texto.

Ver PDF

Statistics with Julia:Fundamentals for Data Science, MachineLearning and Artificial Intelligence. Escrito por Yoni Nazarathy, Hayden Klok.  inferencia estadística, los intervalos de confianza, las pruebas de hipótesis, la regresión lineal, el aprendizaje automático y más.

Ver PDF

Foundations of Data Science. Escrito por Avrim Blum, John Hopcroft, y Ravindran Kannan. Desde la universidad de Cornell  este libro nos aportará los conocimientos teóricos necesarios para desarrollar una carrera en ciencia de datos con unos sólidos fundamentos.

Ver PDF

The Elements of Statistical Learning: Autores: Jerome H. Friedman, Robert Tibshirani y Trevor Hastie

Ver PDF


jueves, 2 de abril de 2020

Estas son las principales funciones de distribución de datos

Como resumen del anterior post:10 consejos para determinar qué tipo de distribución de datos siguen nuestros datos,  quiero publicar un resumen de las distribuciones más utilizadas por los data scientist. 

En la imagen, se muestra 5 de las distribuciones de datos más importantes y un pequeño resumen de sus características y aplicaciones.


miércoles, 13 de noviembre de 2019

Truco sencillo para conocer las variables de tu dataset con Sas

En muchas ocasiones tenemos problemas para visualizar todas las variables que forman nuestra tabla de datos o dataset con el que estamos trabajando. 

Utilizando este sencillo código de sas ®, obtenemos un dataset (X) con el nombre de todas las variables y la posición que ocupa en nuestro fichero. 

proc contents
     data = TOTAL
          noprint
          out = X
               (keep = name varnum);
run;