Base de datos MNIST

La base de datos MNIST (por sus siglas en inglés, Modified National Institute of Standards and Technology database)^[1] es una extensa colección de base de datos que se utiliza ampliamente para el entrenamiento de diversos sistemas de procesamiento de imágenes.^[2]^[3] También se emplea con frecuencia en el campo del aprendizaje automático para tareas de entrenamiento y prueba.^[4]^[5]

Thumb — Imágenes de muestra del conjunto de datos de prueba MNIST

Esta base de datos fue creada mediante la combinación de muestras de los conjuntos de datos originales del Instituto Nacional de Estándares y Tecnología (National Institute of Standards and Technology o NIST, en inglés).^[6] Los creadores tomaron esta decisión considerando que el conjunto de entrenamiento del NIST provenía de empleados de la Oficina del Censo estadounidense, mientras que el conjunto de prueba se obtenía de estudiantes de secundaria estadounidenses, lo que no era adecuado para experimentos de aprendizaje automático.^[7] Además, las imágenes en blanco y negro del NIST fueron normalizadas para ajustarse a un cuadro delimitador de 28x28 píxeles y se suavizaron, lo que introdujo niveles de escala de grises.^[7]

La base de datos MNIST consta de 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba.^[8] La mitad de las imágenes de entrenamiento y la mitad de las imágenes de prueba se obtuvieron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad se tomó del conjunto de datos de prueba del NIST.^[9] Los creadores originales de la base de datos tienen una lista de algunos de los métodos que se probaron en ella.^[7] En su documento original, utilizaron una máquina de vectores de soporte para lograr una tasa de error del 0,8%.^[10]

El MNIST Extendido (en inglés, Extended MNIST o EMNIST) es un nuevo conjunto de datos desarrollado y publicado por el NIST como sucesor (definitivo) de MNIST.^[11]^[12] Mientras que MNIST solo incluía imágenes de dígitos manuscritos, EMNIST incluye todas las imágenes de la Base de Datos Especial 19 del NIST, que abarca tanto letras mayúsculas como minúsculas, además de dígitos.^[13]^[14] Las imágenes de EMNIST se han convertido al mismo formato de 28x28 píxeles y se han aplicado el mismo proceso de normalización que se utilizó en MNIST. Por lo tanto, es probable que las herramientas que funcionan con el conjunto de datos MNIST, que es más antiguo y más pequeño, también funcionen sin modificaciones con EMNIST.

Remove ads

Historia

El conjunto de imágenes de la base de datos MNIST fue creado en 1994 mediante la combinación de dos bases de datos del NIST: la Base de Datos Especial 1 y la Base de Datos Especial 3. La Base de Datos Especial 1 contiene dígitos escritos por estudiantes de secundaria, mientras que la Base de Datos Especial 3 consiste en dígitos escritos por empleados de la Oficina del Censo de Estados Unidos.^[7]

El conjunto de datos original consistía en imágenes binarias de 128x128 píxeles, las cuales fueron procesadas y convertidas en imágenes de 28x28 píxeles en escala de grises. Inicialmente, tanto el conjunto de entrenamiento como el conjunto de pruebas contenían 60.000 muestras cada uno. Sin embargo, posteriormente se descartaron 50.000 muestras del conjunto de pruebas.^[15]

Remove ads

Rendimiento

Resumir

Contexto

Algunos investigadores han alcanzado un "rendimiento casi humano" en la base de datos MNIST utilizando un comité de redes neuronales. En el mismo artículo, los autores logran un rendimiento que duplica el de los humanos en otras tareas de reconocimiento.^[16] La tasa de error más alta registrada^[7] en el sitio web original de la base de datos es del 12%, y se logra utilizando un clasificador lineal simple sin preprocesamiento.^[10]

En 2004, expertos lograron alcanzar una tasa de error del 0,42% en el mejor de los casos utilizando un nuevo clasificador llamado LIRA. Este clasificador es un clasificador neuronal que consta de tres capas de neuronas y se basa en los principios del perceptrón de Rosenblatt.^[17]

Algunos investigadores han evaluado sistemas de inteligencia artificial utilizando la base de datos MNIST sometida a distorsiones aleatorias. En estos casos, los sistemas suelen ser redes neuronales y las distorsiones empleadas suelen ser transformaciones afines o deformaciones elásticas.^[7] En ocasiones, estos sistemas han tenido mucho éxito, como en el caso en el que se logró una tasa de error en la base de datos del 0,39%.^[18]

En 2011, se reportó una tasa de error del 0,27%, mejorando el mejor resultado previo, mediante el uso de un sistema similar de redes neuronales.^[19] En 2013, se afirmó que un enfoque basado en la regularización de las redes neuronales utilizando DropConnect lograba una tasa de error del 0,21%.^[20]

En 2016, se alcanzó el mejor rendimiento hasta el momento con una sola red neuronal convolucional, con una tasa de error del 0,25%.^[21] En agosto de 2018, la mejor tasa de error registrada con una sola red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos fue del 0,25%.^[21]^[22] Además, el Parallel Computing Center (Khmelnytskyi, Ucrania) logró un conjunto de solo 5 redes neuronales convolucionales que alcanzaron una tasa de error del 0,21% en MNIST.^[23]^[24]

Es importante tener en cuenta que algunas imágenes del conjunto de datos de prueba pueden ser apenas legibles y esto puede dificultar alcanzar tasas de error de prueba del 0%.^[25] En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% utilizando tres tipos de redes neuronales apiladas simultáneamente: redes neuronales totalmente conectadas, recurrentes y convolucionales.^[26]

Remove ads

Clasificadores

Resumir

Contexto

La siguiente tabla muestra algunos métodos de aprendizaje automático utilizados en la base de datos MNIST y sus respectivos porcentajes de error, organizados por tipo de clasificador:

Más información Tipo, Clasificador ...


Tipo	Clasificador	Distorsión	Preprocesamiento	Error (%)
Clasificador lineal	Análisis discriminante lineal	Ninguno	Enderezamiento	7.6^[10]
K vecinos más próximos	K-NN con transformaciones rígidas	Ninguno	Ninguno	0.96^[27]
K vecinos más próximos	K-NN con deformación no lineal (P2DHMDM)	Ninguno	Bordes desplazables	0.52^[28]
Boosted Stumps	Producto de stumps en las características de Haar	Ninguno	Características de Haar	0.87^[29]
Clasificador no lineal	40 PCA + clasificador cuadrático	Ninguno	Ninguno	3.3^[10]
Random Forest	Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)^[30]	Ninguno	Importancia estadística simple de píxeles	2.8^[30]
Máquinas de vectores de soporte (SVM)	SVM virtual, deg-9 poly, 2-pixel jittered	Ninguno	Enderezamiento	0.56^[31]
Red neuronal profunda (DNN)	2 capas 784-800-10	Ninguno	Ninguno	1.6^[32]
Red neuronal profunda (DNN)	2-capas 784-800-10	Deformaciones elásticas	Ninguno	0.7^[32]
Red neuronal profunda (DNN)	6-capas 784-2500-2000-1500-1000-500-10	Deformaciones elásticas	Ninguno	0.35^[33]
Red neuronal convolucional (CNN)	6-capas 784-40-80-500-1000-2000-10	Ninguno	Ampliación de los datos de entrenamiento	0.31^[34]
Red neuronal convolucional (CNN)	6-capas 784-50-100-500-1000-10-10	Ninguno	Ampliación de los datos de entrenamiento	0.27^[35]
Red neuronal convolucional (CNN)	13-capas 64-128(5x)-256(3x)-512-2048-256-256-10	Ninguno	Ninguno	0.25^[21]
Red neuronal convolucional (CNN)	Comité de 35 CNN, 1-20-P-40-P-150-10	Deformaciones elásticas	Normalizaciones de anchura	0.23^[16]
Red neuronal convolucional (CNN)	Comité de 5 CNN, 6 capas 784-50-100-500-1000-10-10	Ninguno	Ampliación de los datos de formación	0.21^[23]^[24]
Aprendizaje profundo multimodelo aleatorio (RMDL)	10 NN-10 RNN - 10 CNN	Ninguno	Ninguno	0.18^[26]
Red neuronal convolucional (CNN)	Comité de 20 CNNS con redes de compresión y excitación^[36]	Ninguno	Aumento de datos	0.17^[37]
Red neuronal convolucional (CNN)	Conjunto de 3 CNN con distintos tamaños de kernel	Ninguno	Aumento de datos consistente en rotación y traslación	0.09^[38]

Remove ads

Véase también

Referencias

Loading content...

Bibliografía

Loading content...

Enlaces externos

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads