Hola a todos. En este vídeo vamos a ver qué es Big Data. Vamos a describir el big data desde el punto de vista de la analítica de datos, y en particular, mostrar los cambios que se están produciendo en el tratamiento de información. Para ello vamos a recordar lo que es la analítica tradicional Y vamos a hablar de conceptos del big data como el volumen, la velocidad, la variedad, para por último, ver cuál es la foto de lo que sería la analítica avanzada actualmente. Terminaremos recordando las V's del big data y hablando de los retos del big data. En la analítica tradicional, una persona, el analista, el científico, coge información de bases de datos o de ficheros y mediante técnicas analíticas obtiene modelos analíticos que pueda utilizar en negocio, en investigación o en el ámbito en el que trabaje. Para ello, lo normal es utilizar su ordenador pero también puede utilizar servidores o supercomputadores si necesita capacidad de cómputo elevada. Con el Big Data una de las soluciones que se obtiene es que ahora podemos almacenar muchísima más información. El coste de almacenamiento de información se ha reducido muchísimo por lo tanto podemos almacenar mucho volumen. Como muestra, en 1992, con 500 dólares se podía almacenar sólo un giga de información mientras ahora, en 2017, podemos almacenar 26 mil gigas de información con esos 500 dólares. A esto hay que sumarle que cada 24 meses se está duplicando la capacidad de los microprocesadores gracias a lo que establece la Ley de Murphy que lleva vigente los últimos 50 años. Esto permite que podamos procesar muchísima información en mucho menos tiempo y con algoritmos mucho más potentes. También, aparte de utilizar CPU's se están evolucionando a utilizar, en el tratamiento información, otro tipo de procesadores como las GPU las TPU de forma que podamos procesar más información en menos tiempo con determinados tipos de algoritmos. También, nos afecta la velocidad, que las comunicaciones a nivel mundial están mejorando muchísimo. De forma que ya no tenemos que tener el ordenador cerca de nosotros sino que podemos considerar otro tipo de soluciones como las nubes o tener soluciones híbridas. Entonces, por un lado tenemos, que podemos almacenar muchísima cantidad información, y por otro lado tenemos, que podemos procesarla una velocidad muy elevada. Por lo que ahora se nos abre otra derivada la variedad. Históricamente, como era muy costoso almacenar información, lo que hacíamos era seleccionar cuál era la información más importante de la que disponíamos y almacenar solamente esa información. Ahora, como es mucho más barato, entonces, lo que estamos haciendo es almacenar toda la información posible para no perder conocimiento. Entonces, a la información estructurada que hemos tenido históricamente ahora se suman información no estructurada, como por ejemplo las imágenes, los textos y los sonidos. Esto se ha debido gracias a la transformación digital que nos está permitiendo transformar fotos en datos, sonidos en datos, y texto en datos de forma que podemos procesarlo. En un futuro muy cercano, con todo el IOT, lo que estamos viendo es que ya están creciendo los sensores. Y la cantidad de información que están generando esos sensores va a ser muchísimo más grande a toda la información que se genera actualmente, por lo que va a ser una de las mayores fuentes de información. A esto hay que sumarle que gracias a que la velocidad de las comunicaciones ha aumentado, estamos cambiando el paradigma de la, computación pasando de una computación centrada en servidores y supercomputadores a una computación centrada en sistemas distribuidos, gracias a que ahora los ordenadores pueden comunicarse muy rápidamente entre sí. Las ventajas de estos sistemas distribuidos es la alta disponibilidad, la tolerancia a fallos, la escalabilidad, y el bajo coste que tiene. No vamos a entrar en los detalles, porque más adelante en el curso se verá en profundidad. Pero si vamos a comentar pequeños inconvenientes a la hora de entrenamiento de información. Primero, la seguridad. Hay más puntos de entrada y por lo tanto hay problemas de seguridad. Hay más puntos de falla al tener muchas más máquinas que hay que coordinar. Y por último, para la algoritmia avanzada, necesitamos algoritmos específicos y software específico de computación distribuida. Además, gracias a este volumen y a esta velocidad podemos tener más datos y mayor capacidad de cómputo. Esto ha permitido que muchos algoritmos, principalmente de Machine Learning de inteligencia artificial, que antes no era posible utilizar porque no convergían por la falta de información o la falta de capacidad de cómputo, ahora si lo hacen. De forma que podemos utilizar técnicas mucho más sofisticadas. Por eso actualmente se están desarrollando tan rápidamente la inteligencia artificial y en particular el Deep Learning, el Speech Recognition y el Natural Language Processing. Si volvemos a la foto anterior de la analítica tradicional, vemos que la analítica tradicional basada en datos estructurados, técnicas analíticas y trabajando sobre servidores y supercomputadores para generar modelos analíticos cambia el mismo usuario. Ahora utiliza datos estructurados, no estructurados, provenientes de imágenes, de texto, de sensores. Estos datos pueden estar alojados en un ordenador o incluso pueden estar alojados en una nube, en un sistema distribuido. Y podemos utilizar ahora ya no solo las técnicas tradicionales clásicas sino además técnicas mucho más potentes de Machine Learning o de inteligencia artificial, que lo que nos permiten obtener modelos analíticos más potentes. Si vemos la foto, el usuario es el mismo. El modelo es el mismo, pero lo que obtenemos es un modelo mucho más robusto, un modelo que tiene muchísimo más conocimiento, que detecta más patrones y que por lo tanto nos va a ayudar más. Como resumen de las V's del Big Data hemos hablado que el big data nos aporta volumen. Podemos almacenar muchísima información. Velocidad. Podemos procesarla mucho más rápido y variedad. Estas dos cosas no van a permitir que podamos ingestar, y almacenar, y tratar información ya no sólo estructurada sino no estructurada. Pero ahora surgen los retos del big data que también son nubes. El valor. Con toda esta cantidad de información, esta tecnología ¿Cómo podemos extraer valor a estos datos?. Es uno de los primeros retos y principales, después esta la veracidad. Con esta ingesta continua y rápida de velocidad, ¿Cómo podemos asegurar que los datos son veraces? Es decir ¿Cómo podemos asegurar que la información que realmente hay en esos datos es correcta?. Después tenemos el tema de la visualización. Otro gran reto. Toda esa cantidad de información ¿Cómo puedo yo resumirla y mostrarla a un usuario de forma que entienda lo más importante? Y por último el tema de variabilidad. Con estos cambios y esta evolución tan rápida de tecnología, de los procesos, de las técnicas analíticas. ¿Cómo podemos mantener estables, procesos y procedimientos que involucren a datos y que no vayan perturbándose en el tiempo?. Estos son los grandes retos que tiene el big data desde el punto de vista del tratamiento de información. Hay otros retos tecnológicos, hay otros retos sociales, pero nos vamos a centrar en los retos del tratamiento de información. Los principales retos que vamos a tener son primero, la complejidad tecnológica. ¿Cómo puede el usuario avanzado de datos, vivir con esta complejidad?. Segundo, la complejidad algorítmica. Ya no valen los algoritmos anteriores porque trabajan sobre una computadora. Necesitábamos algoritmos que puedan paralizar y puedan distribuirse. Después, necesitamos equipos multidisciplinarios, porque en esta complejidad, no solo una persona es capaz tener todo el conocimiento para poder desarrollarlo. Y, por último, necesitamos conocimiento experto. Porque toda esa información, necesitamos alguien que la interprete, que le saque valor y a los resultados también, porque después hay que comunicarlos. Para poder realizar todo esto, lo que es necesario es establecer una metodología del procesamiento de datos con una metodología de procesamiento Big Data.