Loading AI tools
le processus de transformation d'une entité analogique en entité numérique (document, image, signal...) De Wikipédia, l'encyclopédie libre
La numérisation est la conversion des informations d'un support (texte, image, audio, vidéo) ou d'un signal électrique en données numériques que des dispositifs informatiques ou d'électronique numérique pourront traiter. Les données numériques se définissent comme une suite nombres qui représente des informations[1]. On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais).
La numérisation, dans le contexte de l'administration des archives, est la conversion en masse des documents en fichiers informatiques[2].
La numérisation construit une représentation discrète d'un objet, sous la forme d'une collection d'un nombre fini de signes pris dans un ensemble dénombrable de signes valides[3].
La numérisation d'un texte est sa transformation en une suite de caractères formant des mots existant dans la langue écrite, comme une dictée transforme les sons de la parole en une suite de mots existant dans le dictionnaire de la langue écrite.
La numérisation d'une image la transforme en suite d'instructions permettant de la reconstituer. Ces instructions peuvent consister en un tableau des sensations visuelles pour chaque élément (pixels) ou avoir une organisation plus complexe (images comprimées, images vectorielles).
À moins que les données numériques ne soient produites directement par des humains (on parle alors de saisie de données), la numérisation comporte en général trois phases :
À ces trois phases succèdent souvent des opérations plus complexes permettant un encodage plus efficace. C'est notamment le cas pour la numérisation des images dans les appareils photographiques numériques et pour la numérisation des textes (reconnaissance optique de caractères).
Le processus de numérisation peut quelquefois prendre d'autres formes.
La température varie lentement dans le temps. La numérisation crée un journal de son évolution :
Chaque fois que l'arrondi de la température change, on enregistre la date et heure et soit la nouvelle température soit la variation.
L'enregistreur de données (data logger) effectue automatiquement ces opérations en convertissant d'abord les deux dimensions, la température et le temps, en signaux électriques. Il enregistre le résultat selon un code que d'autres dispositifs informatiques pourront exploiter.
Dans la plupart des cas, cependant, on utilise des échelons réguliers et on mesure une des grandeurs qui décrivent l'objet en incrémentant les autres. On obtient ainsi un nombre fini de données.
L'opération qui consiste à prélever une valeur pour chaque incrément d'une grandeur s'appelle échantillonnage. Dans l'échantillonnage spatial, on discrétise suivant une longueur, par exemple en prélevant une valeur de luminosité tous les dixièmes de millimètre, sur chaque axe spatial. Dans l'échantillonnage temporel, on va discrétiser le cours du temps, par exemple en prélevant une valeur à chaque microseconde.
L'opération qui consiste à arrondir une valeur à une autre, prise dans une liste finie, s'appelle la quantification.
Le résultat de cette numérisation est une suite de valeurs représentant la grandeur mesurée suivant les axes choisis, dans un ordre conventionnel qui permet de reconstituer toutes les dimensions de chaque élément de l'objet.
Pour que les données numérisées représentent fidèlement les grandeurs initiales, on doit toujours faire des hypothèses sur le signal à représenter.
Lorsqu'on ne connaît que sa largeur de bande et son rapport signal sur bruit, la théorie de l'information détermine le débit numérique. Le théorème d'échantillonnage propose une fréquence d'échantillonnage minimale avec une quantification telle que le bruit de quantification soit d'un niveau comparable au bruit de fond. Le bruit peut être rendu indépendant du signal par décorrélation (dithering). Plusieurs combinaisons de fréquence et d'échelle de quantification peuvent décrire adéquatement le même signal.
Avec une connaissance plus précise des grandeurs à représenter, on peut utiliser moins d'échantillons grâce aux méthodes d'acquisition comprimée.
Le principe même de la numérisation implique que l'utilisateur (généralement, une machine) connaisse les conventions qui permettent de reconstituer l'objet représenté. On appelle ces conventions le format des données. La numérisation d'une information comprend de façon indissociable :
L'objet ne peut être reconstitué que si la machine informatique a en mémoire les deux composantes. Quand l'algorithme correspondant à un fichier ou à un flux de données manque à la machine, on ne peut utiliser les données et on parle de problème de compatibilité.
Les formats peuvent être simples, comme dans le cas fréquent d'un flux brut de numérisation d'un signal à une seule dimension où les échantillons se suivent sans discontinuer. Il suffit alors de connaître leur taille, leur encodage numérique et la cadence d'échantillonnage pour reconstituer le signal. Les formats peuvent être complexes, comme dans le cas de description vectorielle des documents.
Des techniques de compression de données permettent de réduire la taille des fichiers ou le débit des flux. Dans ce cas, la partie invariable de l'information (le format) grandit et devient plus complexe. Quand le document représenté par ces fichiers ou flux est destiné à être distribué, on recherche un format tel que le décodage, qui est effectué à chaque poste, soit moins complexe que l'encodage, qui n'est effectué qu'une fois.
Les procédés de numérisation diffèrent selon la nature physique de l'information à numériser.
Pour numériser une grandeur qui varie dans le temps, comme un son :
Pour numériser une image, on discrétise la hauteur et la largeur et on convertit, pour chaque point, les niveaux de luminosité, soit globalement, soit pour chaque couleur primaire. L'échantillonnage de l'espace s'effectue de trois manières différentes :
Ces procédés valent pour la reproduction en noir et blanc. Pour la reproduction en couleurs, il faut des valeurs pour chacune des trois couleurs primaires. Soit on divise le faisceau lumineux de l'image en trois parties correspondant aux trois couleurs primaires, soit on intercale des filtres devant chaque capteur en alternant les couleurs, et on procède par interpolation, après la conversion numérique, pour évaluer la couleur à chaque pixel. En général, d'autres processus compensent ensuite les insuffisances de l'image brute.
La numérisation d'une image qui varie dans le temps associe les deux familles de procédés. Pour numériser une image animée (vidéo), une caméra numérique, un caméscope numérique, une webcam, échantillonnent le temps et numérisent une image à chaque fois (par exemple, avec une image toutes les 40 millisecondes). Le flux de données subit ensuite un processus de réduction de débit.
On peut aussi numériser un signal vidéo analogique, soit en produisant une conversion brute de ce signal électrique, soit en reconstituant tout ou partie de l'information de discrétisation du temps à partir des signaux de synchronisation verticale (trames) et de l'espace à partir des signaux de synchronisation horizontale (lignes).
Pour numériser un texte, soit un opérateur humain effectue la saisie du texte, soit on numérise le document comme une image en appliquant à ce premier ensemble de données un programme de reconnaissance optique de caractères éventuellement complété par des vérifications automatiques ou manuelles.
Les systèmes informatiques permettent :
La transmission de données numériques traitées pour obtenir une occupation maximale du spectre disponibles nécessite sur les canaux de transmission une bande passante moindre que leur contrepartie analogique.
En contrepartie, les informations négligées ou perdues au moment de la numérisation ou à l'occasion de calculs ou de recodage sont perdues pour les utilisateurs ultérieurs.
Des composants spécialisés assurent la conversion dans un système numérique du signal analogique qu'ont produit initialement des transducteurs (cellule photosensible, thermomètre, microphone, récepteur radio…).
Une chaîne de conversion A/N (analogique vers numérique) peut se décomposer en fonctions et les circuits en éléments :
La précision de la numérisation dépend de la qualité de la quantification du signal et de la stabilité de l'horloge.
Corollaires des nombreux chantiers de numérisation, l’archivage de contenus électroniques repose sur un ensemble d’actions, d’outils et de méthodes mis en œuvre pour réunir, identifier, sélectionner, classer et conserver des contenus électroniques sur un support sécurisé, dans le but de les exploiter et de les rendre accessibles dans le temps. L’archivage est à distinguer du stockage et de la sauvegarde.
Les objectifs des chantiers associant numérisation et archivage sont nombreux. Dans les domaines de la gestion électronique des documents et des sciences de l'information et des bibliothèques, ils remplissent plusieurs fonctions :
La numérisation est l'un des aspects de ce que l'on appelle quelquefois de façon impropre la dématérialisation. C'est indéniablement l'un des passages obligés de tout projet visant à optimiser la gestion des documents et courriers entrants, encore fortement reçus au format papier par les entreprises et les administrations.
L’explosion du volume de données électroniques a inévitablement poussé les organisations à prendre en compte le contenu électronique dans l’intégralité de son cycle de vie, jusqu’à son archivage, voire sa destruction.
Les entreprises et les administrations françaises doivent par ailleurs intégrer la notion de vocation probatoire à leurs projets d’archivage afin d’apporter la preuve de l’intégrité dans le temps de certains contenus électroniques et l’authenticité de leur origine (conformément aux exigences imposées par un cadre légal ou à des réglementations relatives à certains métiers ou secteurs d’activité, par exemple)[4]. Les documents électroniques concernés en priorité par l’archivage à vocation probatoire sont ainsi les factures, clients ou fournisseurs, les bulletins de paie ou les correspondances électroniques.
Des opérations de numérisation de différents éléments du patrimoine culturel ont été lancées en très grand nombre, à partir des années 2000, dans le monde entier. Parmi celles-ci, on distingue plusieurs chantiers de très grande ampleur.
Le consortium OCA est une association américaine qui regroupe des entreprises privées telles Yahoo !, Adobe, HP, Internet Archive[5], des bibliothèques (BU Californie, BU Toronto), des centres d’archives et des éditeurs. Le , Microsoft a rejoint ce groupe.
L'OCA a pour objectif de numériser et de mettre en ligne une banque de données accessible à tous, pérenne et multilingue (banque de données composée de documents multimédias). Cependant, elle prend uniquement en compte les fonds patrimoniaux libres de droits à la différence de Google Recherche de livres. Aucune numérisation ne sera faite sans la permission des ayants droit. Ces derniers peuvent contribuer au projet en définissant l’étendue de la diffusion avec d’éventuelles restrictions.
Annoncé le par les cofondateurs de la société Google, le programme « Google Print » est chargé de numériser 15 millions d’ouvrages, ce qui représente 4,5 milliards de pages en 6 ans selon Jean-Noël Jeanneney, alors président de la Bibliothèque nationale de France. Cinq bibliothèques ont donné leur accord pour numériser leurs fonds : les bibliothèques de l'université Harvard, de l'université du Michigan et de l'université Stanford, la New York Public Library et la Bodleian Library de l'université d'Oxford. Google Print est officiellement lancé en novembre 2005 avec un ensemble de livres numérisés du domaine public et issus des partenaires du projet. Il est rebaptisé à la mi-novembre « Google Books Search » (« Google Recherche de livres » en français). De nouveaux accords ont été passés entre Google et d'autres universités pour enrichir cette bibliothèque numérique.
Le , le président de la Bibliothèque nationale de France, Jean-Noël Jeanneney, lance dans le quotidien Le Monde un appel pour réagir à l'initiative de Google. Fin avril 2005, les bibliothèques nationales de 19 pays puis six chefs d’État et de gouvernement européens appellent à une coopération européenne pour la création d’une bibliothèque numérique européenne (Europeana). Un an plus tard s'ouvre The European Library, le portail multilingue de la BNE.
En 2016, Europeana donne accès à 53 millions de documents numérisés provenant de 3 300 institutions Européennes[6]. L'année suivante, une étude demandée par la Commission européenne montre que Europeana est consulté 700 000 fois par mois[7].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.