[MUSIC] Bienvenido al videotutorial de Estadística univariada de la Introducción de ciencia de datos. Recuerda que puedes ingresar al Jupyter Notebook a través de Anaconda. Desde Windows, con Anaconda Navigator, haciendo clic en Jupyter Notebook. A través de Linux y Mac, a través de la terminal, escribiendo jupyter notebook y abriendo el navegador. De acuerdo con el caso de uso del sector retail que se ha mencionado en el PDF. Se van a desarrollar los temas vistos en la infografía y videos anteriores. Además, puedes utilizar este videotutorial y notebook como una guía para resolver los problemas que se vayan a proponer. Dentro de los objetivos que tenemos, es aplicar los temas vistos al material del curso para este caso, del sector retail. Para esto vamos a utilizar las tablas de frecuencia para resolver problemas de negocio. Utilizar las principales medidas de tendencia central y su interpretación. Y analizar las medidas de dispersión más comunes para el análisis de datos. En este notebook vamos a analizar las medidas de dispersión, posición y variabilidad para el sector retail. Para esto tomaremos los datos más relevantes de precios, medidas y envíos de los productos. Para poder validar la hipótesis propuesta para cada tema. Importación de librerías y archivos. En la siguientes líneas de código, vamos a importar los materiales de trabajo para desarrollar el caso de uso. Dentro de estos se van a incluir las librerías y los datos. Acá tenemos la librería para utilizar comandos del sistema. Y esta es la librería principalmente y más común utilizada para el manejo de datos. Desde Pandas puedes descargar diversidad de archivos. En este caso, vamos a descargar los datos en CSV. Lectura de datos, es importante tener en cuenta la visualización de los datos. Porque podemos tener un contexto real de qué estamos cargando y analizar qué tipos de datos tenemos. Con la función head podemos obtener los primeros registros de la tabla. Que carguemos de cualquier data frame que tengamos cargado en memoria. Acá podemos hacer un recorrido por los datos y mirar las variables que estamos contemplando. Además de eso, también podemos ver los tipos de datos que estamos utilizando en cada variable. Eso se va a realizar para todas las columnas que tienen el data frame que acabamos de ver. Y lo que podemos hacer es generar con la función dtypes para cada variable el tipo de dato que es y cómo lo interpreta el computador. En este caso, podemos ver que, por ejemplo, para las longitudes en centímetros, se van a tomar valores numéricos. Y por ejemplo, para las categorías podemos tener esta clase, que se llama object, que es básicamente una categoría. Tablas de frecuencia. Para la solución del caso de uso es necesario identificar la posible hipótesis para validar a través de las herramientas que vamos a revisar. Las tablas de frecuencia es una herramienta que permite ordenar los datos. De manera que se presenten numéricamente las características de distribución en un conjunto de datos como estos. Para este caso, vamos a validar la hipótesis en donde queremos validar cuál es la categorías de productos que más se venden. Y nuestra hipótesis propuesta es que la categoría de celulares es la que más vende. Vamos a realizar este contraste de hipótesis para realizar una campaña de descuento. Para poder traer a los clientes a la empresa de mejor manera. Entonces, es importante que podamos ver cuáles son las principales categorías. Vamos a realizar una tabla de frecuencia univariada haciendo la unión de varias tablas. Básicamente lo que vamos a hacer es ver las diferentes columnas que se pueden obtener con los cálculos de Pandas. Con esta función value counts podemos hacer un conteo de las categorías y saber cuántos registros hay por categoría. En las siguientes líneas vamos a utilizar la frecuencia relativa. Esta frecuencia relativa la vamos a expresar como un porcentaje. Y básicamente es el conteo de la categoría, dividido en la suma total de los registros que se tengan. La frecuencia absoluta y relativa acumulada básicamente es el cúmulo anterior de todas las líneas que se vienen ejecutando. Es decir, vamos a tener que, por ejemplo, para los conteos, que es la frecuencia absoluta, se van a ir acumulando línea tras línea. Haciendo la suma para, por último, llegar al total de los datos que se tienen en cada categoría. Caso similar pasa con la frecuencia relativa acumulada. En donde los porcentajes se van sumando y en la última línea se tendría el 100% de los datos. Ahora, en la tabla de frecuencia nos va a mostrar la frecuencia absoluta, que es el número de veces que aparece un valor. La frecuencia relativa, que es el resultado de dividir la frecuencia absoluta de un determinado valor por el número total de los datos. La frecuencia acumulada es la suma de las frecuencias absolutas de todos valores iguales o menores al valor considerado. Y por último, la frecuencia relativa acumulada es el resultado de dividir la frecuencia acumulada por el número total de información. Además de eso, en esta línea pongo un ejemplo en la tabla de frecuencia bivariada. En esta tabla, nosotros podemos ver la relación entre dos tipos de variable y su respectivo conteo. Entonces, en este caso, nosotros lo que vamos a hacer es revisar el nombre de la categoría contra la ciudad. Con esto podríamos conducir a un análisis más detallado. En este caso, para validar la hipótesis simplemente es una extensión. Y para que puedas entender qué más funcionalidades podemos utilizar con Pandas y las frecuencias bivariadas. Ahora, con la función crosstab es que podemos generar esta tabla. Así, por ejemplo, la categoría de deportes se tiene, solamente para la ciudad de Acacías, un poco más de 20 ventas. Y así podemos ver cualquier caso en particular. Depende de nosotros explorar la tabla y buscar una hipótesis a validar. Después podemos filtrar estos para buscar lo que sea necesario. Ahora bien, para validar nuestra hipótesis planteada, lo que vamos a ver es el conteo de las categorías en orden ascendente. Con esta tabla nosotros podemos validar que lo que más se vende es tecnología, con mucho más de 500 ventas. Lo que nos conduce a poder realizar un mejor análisis y poder hacer un descuento hacia esta categoría particular. Tendencia central. La tendencia central significa medir el centro de distribución de ubicación de valores de un conjunto de datos. Esto nos da la idea de un valor promedio de las variables en el conjunto de datos. Y también nos indican de qué manera se están distribuyendo los valores en el conjunto de datos que estamos analizando. Para eso, tenemos la media, la mediana y la moda. Aquí vamos a validar la hipótesis de los precios de los productos, ¿para qué? Queremos hacer un conocimiento profundo del cliente. Y sabemos desde marketing que los productos que más se compran son los productos que están debajo de 500. Por lo tanto, nosotros queremos saber si en promedio, para la mayoría de datos. Podríamos determinar que son relativamente económicos, o sea, que están debajo de 500. La hipótesis es que los precios del comercio sean mayores a 500. Si nosotros hacemos aquí el cálculo del promedio. Tenemos que el precio promedio de los productos que se venden es de aproximadamente 120. Y el dato de la mitad, que es la mediana, es de 83. La moda, que es el valor más común, el que más repite, está distribuido en varios valores. Lo que nos indica que existen varios precios que están repetidos en el precio de venta final. Por lo tanto, podemos analizar que el precio promedio es inferior a 500. Ahora se ubica un poco menos de 120. Por lo tanto, lo que podemos ver es que la mayoría de productos tienen una inclinación a ser precios bajos, y que el promedio no es muy alto. Esto nos va a mostrar que hay una influencia mayor de los valores bajos. Esto, dado por la mediana, y porque como el valor es el 50% de los datos y está debajo del promedio. O sea, existe mayor concentración de datos en los precios menores. Medidas de localización. Los cuantiles y percentiles son puntos de corte que dividen el rango de una distribución de probabilidad. En intervalos continuos con probabilidades iguales o que dividen las observaciones en una muestra de la misma forma. Así, pueden representar un porcentaje de los datos a través de los cuartiles para identificar cómo están localizados. En este caso, vamos a revisar los percentiles, e identificar cómo es la distribución de los precios de los productos. Y que la empresa de mensajería con la que se trabaja nos pueda realizar unos descuentos. Si los productos que se envían pesan menos de 500 gramos. Así se podrían bajar los precios de envío y esto generaría un descuento para el cliente final. Ahora, con este código vamos a calcular los percentiles 0.20, 0.50 y 0.70. La diferencia entre percentiles y cuantiles es la ubicación. El percentil 0.50 se va asignar al cuantil número 2, que es la mitad de los datos. En este caso, tenemos estos 3 estadísticos, y vemos que el 50% de los datos está en 1458 gramos. La interpretación correcta es que la mitad de los productos pesa hasta 1458. De ahí para abajo están la mitad de los productos y el resto está de ahí para arriba. Por lo tanto, podemos rechazar la hipótesis, you que la mitad de los productos pesa más que 500 gramos. Sin embargo, con objetivo empresarial podríamos buscar el percentil donde se ubique los 500 gramos. Y analizar cuál porcentaje de datos podría generar este descuento con la empresa de mensajería. Medidas de dispersión, se utilizan las estadísticas de dispersión para dar un número único. Que describa qué tan compacto o disperso es un conjunto de observaciones. Estas se complementan de las medidas mencionadas anteriormente. Las medidas, entre más grandes representan más dispersión. Y entre más pequeñas, más concentradas están las observaciones. Es muy importante tener la escala de la variable. Porque por ejemplo, si estamos hablando de precios podría estar influenciado por la moneda local. En cambio, los centímetros sabemos que están en unidades de 100. Es lo mismo si comparamos kilómetros con centímetros. La dispersión podría ser más o menos grande, pero hay que tener en cuenta la escala. Para esto, vamos a mirar cuatro medidas, que sería, 1, la desviación estándar. 2, el rango intercuartílico, 3, el rango, y 4, por último, el coeficiente de variación. La hipótesis que queremos contrastar es para que la empresa de mensajería nos pueda hacer un descuento. you que los cubículos de transporte individual tienen una longitud de 20 centímetros y es mucho más económico. Así nosotros podemos ahorrar en costos de envío en cierta cantidad de productos. Queremos saber hasta qué punto podríamos nosotros llegar a tener esa dispersión de longitud de los datos. La hipótesis es que la variación de las longitudes de los datos es mayor a 20 centímetros. La desviación estándar de la longitud en centímetros del producto es de 15, lo que nos indica qué tan dispersos están estos datos. Ahí podemos ver que la dispersiones no son muy amplias. Y que, digamos, no nos va a alejar mucho del promedio con esa desviación estándar. Ahora vamos a mirar el rango intercuartílico. El rango intercuartílico lo que hace es mirar la diferencia entre el tercer y el primer cuantil o cuartil, y calcular su diferencia. Entonces, tomamos el cuartil número tres, que es el percentil 75, y el cuartil número uno, percentil 25. Y calculamos su diferencia, esta es de 22 centímetros. Por último, vamos a encontrar el rango. El rango lo hallamos básicamente tomando el dato máximo y el dato mínimo, y ver cuánto es el resultado de esta resta. En este caso, 91 centímetros, y estamos llegando casi a un metro. Por último, vamos a ver el coeficiente de variación. Ahí lo que realizamos es una división entre la desviación estándar y el promedio. Así vemos qué tanto varía respecto al promedio, su desviación estándar. A pesar de que la desviación estándar, y el rango intercuantílico no son menores a 20. Se puede analizar con el rango que la variación entre el máximo y el mínimo es de 91 centímetros. Por tanto, se podría migrar alrededor del 50% de los productos de las empresas al cubículo de 20 centímetros. Y darle a un cliente un descuento en el envío. Esto solo se podría hacer con la mitad de los datos. Básicamente, porque cuando nosotros estamos mirando la diferencia entre cuartiles, estamos tomando el 50% de los datos. Quitamos el 25% y el 75%, y ahí tenemos los 50% de datos centrales. Y por último, es muy importante ver el bonus, you que les voy a mostrar una función de Pandas. Donde es posible encontrar una función que agrega varias estadísticas. Y que permite analizar rápidamente la distribución de los datos numéricos en el data frame. Por ejemplo, estuvimos estudiando las estadísticas de precio, you sabemos el promedio, la desviación estándar. Y también sabemos que los precios están ampliamente distribuidos, así como el precio mínimo. Y aquí están los datos de los percentiles, el 25, el 50, el 75 y el valor máximo. También lo podemos encontrar para otras variables, como lo es el flete. Aquí encontramos el promedio, la desviación estándar. Así, nosotros podemos ver todas las variables que se tienen relacionadas en datos númericos. En esta se muestran las principales estadísitcas que son count, que es el conteo de registros, mean, que es el promedio de la variable. std, que es la desviación estándar de la variable, min y max, que es el mínimo y el máximo de la variable, y los tres percentiles, el 20, 50 y 75. Muchas gracias por la atención prestada, espero que sea de utilidad. Puedes utilizar todos estos consejos y ver de nuevo el videotutorial para futuros análisis. [MUSIC]