Base de datos MNIST
base de datos de dígitos manuscritos De Wikipedia, la enciclopedia libre
La base de datos MNIST (por sus siglas en inglés, Modified National Institute of Standards and Technology database)[1] es una extensa colección de base de datos que se utiliza ampliamente para el entrenamiento de diversos sistemas de procesamiento de imágenes.[2][3] También se emplea con frecuencia en el campo del aprendizaje automático para tareas de entrenamiento y prueba.[4][5]

Esta base de datos fue creada mediante la combinación de muestras de los conjuntos de datos originales del Instituto Nacional de Estándares y Tecnología (National Institute of Standards and Technology o NIST, en inglés).[6] Los creadores tomaron esta decisión considerando que el conjunto de entrenamiento del NIST provenía de empleados de la Oficina del Censo estadounidense, mientras que el conjunto de prueba se obtenía de estudiantes de secundaria estadounidenses, lo que no era adecuado para experimentos de aprendizaje automático.[7] Además, las imágenes en blanco y negro del NIST fueron normalizadas para ajustarse a un cuadro delimitador de 28x28 píxeles y se suavizaron, lo que introdujo niveles de escala de grises.[7]
La base de datos MNIST consta de 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba.[8] La mitad de las imágenes de entrenamiento y la mitad de las imágenes de prueba se obtuvieron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad se tomó del conjunto de datos de prueba del NIST.[9] Los creadores originales de la base de datos tienen una lista de algunos de los métodos que se probaron en ella.[7] En su documento original, utilizaron una máquina de vectores de soporte para lograr una tasa de error del 0,8%.[10]
El MNIST Extendido (en inglés, Extended MNIST o EMNIST) es un nuevo conjunto de datos desarrollado y publicado por el NIST como sucesor (definitivo) de MNIST.[11][12] Mientras que MNIST solo incluía imágenes de dígitos manuscritos, EMNIST incluye todas las imágenes de la Base de Datos Especial 19 del NIST, que abarca tanto letras mayúsculas como minúsculas, además de dígitos.[13][14] Las imágenes de EMNIST se han convertido al mismo formato de 28x28 píxeles y se han aplicado el mismo proceso de normalización que se utilizó en MNIST. Por lo tanto, es probable que las herramientas que funcionan con el conjunto de datos MNIST, que es más antiguo y más pequeño, también funcionen sin modificaciones con EMNIST.
Historia
El conjunto de imágenes de la base de datos MNIST fue creado en 1994 mediante la combinación de dos bases de datos del NIST: la Base de Datos Especial 1 y la Base de Datos Especial 3. La Base de Datos Especial 1 contiene dígitos escritos por estudiantes de secundaria, mientras que la Base de Datos Especial 3 consiste en dígitos escritos por empleados de la Oficina del Censo de Estados Unidos.[7]
El conjunto de datos original consistía en imágenes binarias de 128x128 píxeles, las cuales fueron procesadas y convertidas en imágenes de 28x28 píxeles en escala de grises. Inicialmente, tanto el conjunto de entrenamiento como el conjunto de pruebas contenían 60.000 muestras cada uno. Sin embargo, posteriormente se descartaron 50.000 muestras del conjunto de pruebas.[15]
Rendimiento
Resumir
Contexto
Algunos investigadores han alcanzado un "rendimiento casi humano" en la base de datos MNIST utilizando un comité de redes neuronales. En el mismo artículo, los autores logran un rendimiento que duplica el de los humanos en otras tareas de reconocimiento.[16] La tasa de error más alta registrada[7] en el sitio web original de la base de datos es del 12%, y se logra utilizando un clasificador lineal simple sin preprocesamiento.[10]
En 2004, expertos lograron alcanzar una tasa de error del 0,42% en el mejor de los casos utilizando un nuevo clasificador llamado LIRA. Este clasificador es un clasificador neuronal que consta de tres capas de neuronas y se basa en los principios del perceptrón de Rosenblatt.[17]
Algunos investigadores han evaluado sistemas de inteligencia artificial utilizando la base de datos MNIST sometida a distorsiones aleatorias. En estos casos, los sistemas suelen ser redes neuronales y las distorsiones empleadas suelen ser transformaciones afines o deformaciones elásticas.[7] En ocasiones, estos sistemas han tenido mucho éxito, como en el caso en el que se logró una tasa de error en la base de datos del 0,39%.[18]
En 2011, se reportó una tasa de error del 0,27%, mejorando el mejor resultado previo, mediante el uso de un sistema similar de redes neuronales.[19] En 2013, se afirmó que un enfoque basado en la regularización de las redes neuronales utilizando DropConnect lograba una tasa de error del 0,21%.[20]
En 2016, se alcanzó el mejor rendimiento hasta el momento con una sola red neuronal convolucional, con una tasa de error del 0,25%.[21] En agosto de 2018, la mejor tasa de error registrada con una sola red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos fue del 0,25%.[21][22] Además, el Parallel Computing Center (Khmelnytskyi, Ucrania) logró un conjunto de solo 5 redes neuronales convolucionales que alcanzaron una tasa de error del 0,21% en MNIST.[23][24]
Es importante tener en cuenta que algunas imágenes del conjunto de datos de prueba pueden ser apenas legibles y esto puede dificultar alcanzar tasas de error de prueba del 0%.[25] En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% utilizando tres tipos de redes neuronales apiladas simultáneamente: redes neuronales totalmente conectadas, recurrentes y convolucionales.[26]
Clasificadores
Resumir
Contexto
La siguiente tabla muestra algunos métodos de aprendizaje automático utilizados en la base de datos MNIST y sus respectivos porcentajes de error, organizados por tipo de clasificador:
Tipo | Clasificador | Distorsión | Preprocesamiento | Error (%) |
---|---|---|---|---|
Clasificador lineal | Análisis discriminante lineal | Ninguno | Enderezamiento | 7.6[10] |
K vecinos más próximos | K-NN con transformaciones rígidas | Ninguno | Ninguno | 0.96[27] |
K vecinos más próximos | K-NN con deformación no lineal (P2DHMDM) | Ninguno | Bordes desplazables | 0.52[28] |
Boosted Stumps | Producto de stumps en las características de Haar | Ninguno | Características de Haar | 0.87[29] |
Clasificador no lineal | 40 PCA + clasificador cuadrático | Ninguno | Ninguno | 3.3[10] |
Random Forest | Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)[30] | Ninguno | Importancia estadística simple de píxeles | 2.8[30] |
Máquinas de vectores de soporte (SVM) | SVM virtual, deg-9 poly, 2-pixel jittered | Ninguno | Enderezamiento | 0.56[31] |
Red neuronal profunda (DNN) | 2 capas 784-800-10 | Ninguno | Ninguno | 1.6[32] |
Red neuronal profunda (DNN) | 2-capas 784-800-10 | Deformaciones elásticas | Ninguno | 0.7[32] |
Red neuronal profunda (DNN) | 6-capas 784-2500-2000-1500-1000-500-10 | Deformaciones elásticas | Ninguno | 0.35[33] |
Red neuronal convolucional (CNN) | 6-capas 784-40-80-500-1000-2000-10 | Ninguno | Ampliación de los datos de entrenamiento | 0.31[34] |
Red neuronal convolucional (CNN) | 6-capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de entrenamiento | 0.27[35] |
Red neuronal convolucional (CNN) | 13-capas 64-128(5x)-256(3x)-512-2048-256-256-10 | Ninguno | Ninguno | 0.25[21] |
Red neuronal convolucional (CNN) | Comité de 35 CNN, 1-20-P-40-P-150-10 | Deformaciones elásticas | Normalizaciones de anchura | 0.23[16] |
Red neuronal convolucional (CNN) | Comité de 5 CNN, 6 capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de formación | 0.21[23][24] |
Aprendizaje profundo multimodelo aleatorio (RMDL) | 10 NN-10 RNN - 10 CNN | Ninguno | Ninguno | 0.18[26] |
Red neuronal convolucional (CNN) | Comité de 20 CNNS con redes de compresión y excitación[36] | Ninguno | Aumento de datos | 0.17[37] |
Red neuronal convolucional (CNN) | Conjunto de 3 CNN con distintos tamaños de kernel | Ninguno | Aumento de datos consistente en rotación y traslación | 0.09[38] |
Véase también
Referencias
Bibliografía
Enlaces externos
Wikiwand - on
Seamless Wikipedia browsing. On steroids.