Bienvenidos al análisis y reconocimiento de imágenes. La visión por computador es la ciencia y tecnología que pretende que las máquinas puedan ver. En este caso, si hacemos el símil humano-máquina, ¿qué tenemos? Que la cámara o el escáner hace de ojo humano y los algoritmos, las técnicas de procesamiento de imágenes hacen de cerebro para poder interpretar el contenido de esas imágenes. ¿Y qué es una imagen digital para un ordenador? Pues es una función bidimensional, donde un punto o pixel tiene el valor de la intensidad de luz. Fijaos que en este caso estamos hablando de valores numéricos. Como que este video es relativamente corto, dejadme que me centre solo en lo que es el análisis y procesamiento de imágenes de documentos históricos. ¿Por qué? Primero que todo, por la preservación, por el deterioro del papel, evitar que se conviertan en polvo. Por otra parte, el almacenamiento. Evitar kilómetros de estanterías y poder tener en paralelo toda la información dentro de discos duros. Y un tercero que sería la accesibilidad, es decir, permitir que todo el mundo, a través de un portal, pudiera acceder al patrimonio cultural de estos documentos. En el caso del análisis y reconocimiento de imágenes de documentos históricos, hay diferentes tareas, diferentes algoritmos, dependiendo de cuál es el objetivo. Por ejemplo, podríamos decir que una de las primeras tareas es la mejora de la imagen del documento. En este caso, podemos tener documentos degradados, y nuestro objetivo es intentar que la legibilidad mejore. Por otra parte, también podríamos decir que lo que necesito es analizar la estructura; en un documento, poder separar lo que son gráficos, lo que son textos, lo que son cabeceras, párrafos, logos y dibujos; o bien, lo que me interesa es reconocer el texto como tal, a lo que le llamamos Optical Character Recognition, un OCR, lo que tienen normalmente los escáneres cuando vienen con su software en su ser. En este caso, lo que tenemos que hacer es transformar esa imagen de píxeles, recordad que los píxeles son valores numéricos, en un archivo de texto que sea editable por un procesador de textos, un txt, un documento Word, por ejemplo. Para eso, se van comparando los píxeles y a ver cuál es cada una de las letras que se asemeja más. En cambio, cuando estamos hablando de reconocimiento de texto manuscrito, fijaos que aquí cada una de las letras es diferente, depende del estilo de escritura de la persona que haya escrito ese manuscrito. Por tanto, aquí las técnicas difieren. Lo que tenemos son técnicas de Deep Learning, llamado en inglés, o Aprendizaje Profundo. ¿Y cuál es el objetivo? Aprender, a través de muchos ejemplos, a leer texto a partir de cada uno de esos estilos de escritura. Por otra parte, algo que nos podría interesar es, en lugar de transcribir, en lugar de leer, me interesaría entender para poder extraer la información de ese documento. Por ejemplo, digamos que, aparte de transcribir, a mí me interesaría detectar cuáles son las palabras importantes, los llamados named-entities, por ejemplo, nombres propios, apellidos o lugares. Fijaos que en este caso lo que necesito es pasar a un nivel más arriba de entendimiento del documento; no estoy solo leyendo una a, una b, una c, sino que estoy intentando entender. En lugar de reconocer, podría pensar que lo que yo quiero es analizar y reconocer, en lugar de texto, documentos gráficos, como por ejemplo pinturas, dibujos, mapas, planos, partituras musicales, rollos de pianola. Fijaos que en este caso, dadas las particularidades, yo lo que necesito son algoritmos específicos y, de hecho, hay algoritmos específicos para cada una de esta tipología de documentos. Si en lugar de reconocer, yo estuviera más interesada en detectar o localizar cierta información en una colección de documentos, podríamos hablar de las técnicas llamadas Symbol o Word Spotting, que es detectar o localizar el elemento que yo quiero buscar en una colección. Fijaos que aquí las colecciones no son transcritas. Yo podría simplemente buscar, a nivel visual, algo que se parezca a lo que yo necesito buscar, y eso se puede adaptar a cualquier tipología de documento. Yo podría buscar una palabra, podría buscar un símbolo, podría buscar un gráfico en una colección de documentos. Si en lugar de reconocer o buscar, yo estoy interesada en clasificar, podemos hablar de técnicas de clasificación de documentos, y hay de dos tipos, you sea por el contenido, me gustaría separar facturas de formularios, de cheques, todo esto es muy típico en los entornos bancarios por ejemplo; o bien, la identificación del escritor, verificación o datación de manuscritos. En este caso, fijaos que no es qué tipo de documento, sino es quién ha escrito aquello; no es qué hay escrito, sino cómo se ha escrito. Y aquí estamos hablando del estilo de escritura, estoy analizando el estilo de escritura, para poder saber, dado un documento de entrada, cuáles, de la base de datos, son los escritores con un estilo de escritura más parecido. O por ejemplo, podría hablar de verificación. ¿Es de verdad este documento de este autor? ¿Es esta firma auténtica? O finalmente, podríamos hablar de datación. El estilo de escritura del siglo XII no se parece al estilo de escritura del siglo XVIII. Igual que el estilo de escritura de una persona cuando tiene 20 años, no se parece al estilo de escritura de alguien cuando you tiene 80. Finalmente, también me podría interesar analizar fotografías o imágenes, y poder extraer la información automáticamente. En este caso, estamos hablando de las técnicas llamadas Image Captioning. Por ejemplo, en la imagen que tenemos detrás, estamos viendo campesinos sobre un carro tirado por un caballo. El algoritmo, la técnica, miraría la imagen y extraería automáticamente esta descripción. Estas técnicas son muy útiles para buscar información en fotografías o dibujos, o pinturas, y extraer tags, metadatos, categorías, automáticamente de colecciones de imágenes o dibujos. Como podéis ver, hay diferentes técnicas según la tarea. Por eso, junto con este vídeo, hay varios enlaces y bibliografía extra, demos y vídeos, para ampliar información. Gracias. [AUDIO_EN_BLANCO]