Timeline
Chat
Prospettiva

Trasformata di Burrows-Wheeler

algoritmo usato nei programmi di compressione dati Da Wikipedia, l'enciclopedia libera

Remove ads

La trasformata di Burrows-Wheeler (abbreviata con BWT) è un algoritmo usato nei programmi di compressione dati come bzip2. È stata inventata da Michael Burrows e David Wheeler.[1]

Quando una stringa di caratteri viene sottoposta alla BWT, nessuno di questi cambia di valore perché la trasformazione permuta soltanto l'ordine dei caratteri. Se la stringa originale contiene molte ripetizioni di certe sottostringhe, allora nella stringa trasformata troveremo diversi punti in cui lo stesso carattere si ripete tante volte. Ciò è utile per la compressione perché diventa facile comprimere una stringa in cui compaiono lunghe sequenze di caratteri tutti uguali.

Per esempio, la stringa:

TRENTATRE.TRENTINI.ANDARONO.A.TRENTO.TUTTI.E.TRENTATRE.TROTTERELLANDO

verrebbe trasformata nella seguente:

OIIEEAEO..LDTTNN.RRRRRRRTNTTLEAAIOEEEENTRDRTTETTTTATNNTTNNAAO....OU.T
Remove ads

La trasformata

Riepilogo
Prospettiva

La trasformata è fatta ordinando tutte le rotazioni del testo e poi prendendo soltanto l'ultima colonna. Per esempio, il testo "^BANANA@" viene trasformato in "BNN^AA@A" attraverso questi passi (i caratteri rossi ^ e @ indicano rispettivamente il puntatore di inizio stringa, e quello di fine stringa o 'EOF'):

Ulteriori informazioni Input, Tutte le rotazioni ...

Il seguente pseudocodice mostra un metodo, inefficiente, per calcolare la BWT e la sua inversa. Assume che la stringa di input s contenga un carattere speciale 'EOF' che è sempre l'ultimo carattere e che non appare mai nel testo, e che quindi è ignorato durante l'ordinamento.

 funzione BWT (string s)
   crea una lista di tutte le possibili rotazioni di s
   metti ciascuna rotazione su una riga di una grande tabella quadrata
   ordina alfabeticamente le righe della tabella, trattando ogni riga come una stringa
   riporta la colonna più a destra della tabella
 
 funzione BWTinversa (string s)
   crea una tabella vuota senza righe o colonne
   ripeti lunghezza_di(s) volte
       inserisci s come nuova colonna sul lato sinistro della tabella
       ordina alfabeticamente le righe della tabella
   riporta la riga che finisce con il carattere 'EOF'


Remove ads

La trasformata inversa

Riepilogo
Prospettiva

La cosa più interessante della BWT non è che questa genera un output più facilmente comprimibile dell'originale, anche perché ciò si potrebbe ottenere mettendo semplicemente in ordine alfabetico i caratteri, ma è la sua reversibilità: il documento originale si ricostruisce a partire dai soli caratteri dell'ultima colonna.

L'inversa può essere compresa in questo modo. Prendi la tabella finale dell'algoritmo BWT ed elimina tutto a parte l'ultima colonna. Data soltanto quest'informazione puoi facilmente ricostruire la prima colonna. L'ultima colonna ti dice quali sono tutti i caratteri del testo, basta metterli in ordine per ottenere la prima colonna. Adesso la prima e l'ultima colonna sono note e insieme ti danno tutte le coppie di caratteri successivi nel documento, dove le coppie danno, ciclicamente, sempre prima l'ultimo e poi il primo carattere della coppia nel documento originale. Ordinando la lista delle coppie ottieni la prima e la seconda colonna. Continuando in questo modo puoi ricostruire l'intera lista, quindi, la riga con il carattere 'EOF' alla fine è il testo originale. La trasformata inversa dell'esempio sopra viene fatta così:

Ulteriori informazioni Input, Aggiungi ...

Certe ottimizzazioni possono far sì che questi algoritmi vengano eseguiti in maniera più efficiente senza cambiare il risultato; non c'è nessuna necessità di tenere l'intera tabella in memoria, tanto meno su disco e non è necessario ripetere i continui ordinamenti dell'esempio. Ogni riga della tabella è rappresentata in memoria con un semplice puntatore al carattere d'inizio della stessa.


Remove ads

Implementazione d'esempio

Riepilogo
Prospettiva

Nota: Scritta in C

#include <unistd.h>
#include <stdlib.h>
#include <string.h>
#include <assert.h>
#include <stdio.h>

typedef unsigned char byte;

byte *rotlexcmp_buf = NULL;
int rottexcmp_bufsize = 0;

int rotlexcmp(const void *l, const void *r)
{
    int li = *(const int*)l, ri = *(const int*)r, ac=rottexcmp_bufsize;
    if(li == ri) return 0;
    while (rotlexcmp_buf[li] == rotlexcmp_buf[ri])
    {
        if (++li == rottexcmp_bufsize)
            li = 0;
        if (++ri == rottexcmp_bufsize)
            ri = 0;
        if (!--ac)
            return 0;
    }
    if (rotlexcmp_buf[li] > rotlexcmp_buf[ri])
        return 1;
    else
        return -1;
}

void bwt_encode(byte *buf_in, byte *buf_out, int size, int *primary_index)
{
    int indices[size];
    int i;

    for(i=0; i<size; i++)
        indices[i] = i;
    rotlexcmp_buf = buf_in;
    rottexcmp_bufsize = size;
    qsort (indices, size, sizeof(int), rotlexcmp);

    for (i=0; i<size; i++)
        buf_out[i] = buf_in[(indices[i]+size-1)%size];
    for (i=0; i<size; i++)
    {
        if (indices[i] == 1) {
            *primary_index = i;
            return;
        }
    }
    assert (0);
}

void bwt_decode(byte *buf_in, byte *buf_out, int size, int primary_index)
{
    byte F[size];
    int buckets[256];
    int i,j,k;
    int indices[size];

    for (i=0; i<256; i++)
        buckets[i] = 0;
    for (i=0; i<size; i++)
        buckets[buf_in[i]] ++;
    for (i=0,k=0; i<256; i++)
        for (j=0; j<buckets[i]; j++)
            F[k++] = i;
    assert (k==size);
    for (i=0,j=0; i<256; i++)
    {
        while (i>F[j] && j<size)
            j++;
        buckets[i] = j; // it will get fake values if there is no i in F, but
                        // that won't bring us any problems
    }
    for(i=0; i<size; i++)
        indices[buckets[buf_in[i]]++] = i;
    for(i=0,j=primary_index; i<size; i++)
    {
        buf_out[i] = buf_in[j];
        j=indices[j];
    }
}

int main()
{
    byte buf1[] = "Polska Wikipedia";
    int size = strlen((const char*)buf1);
    byte buf2[size];
    byte buf3[size];
    int primary_index;

    bwt_encode (buf1, buf2, size, &primary_index);
    bwt_decode (buf2, buf3, size, primary_index);

    assert (!memcmp (buf1, buf3, size));
    printf ("Result is the same as input, that is: <%.*s>\n", size, buf3);
    // Print out encode/decode results:
    printf ("Input : <%.*s>\n", size, buf1);
    printf ("Output: <%.*s>\n", size, buf2);
    return 0;
}

implementazione in Perl:

#!/usr/bin/perl

# an Oromis92's implementation

while ( $text = <> ) {
    chomp $text;
    @text   = split //, $text;
    $length = length($text);
    @array  = ($text);
    for ( $j = 0 ; $j < $length ; $j++ ) {
        for ( $i = 0 ; $i < $length ; $i++ ) {
            $string .= $text[ ( $i - ( $j + 1 ) ) ];
        }
        $array[ $j + 1 ] = $string;
        $string = "";
    }
    pop(@array);

    @array = sort(@array);

    $text = "";
    for ( $k = 0 ; $k <= $#array ; $k++ ) {
        $text .= substr( $array[$k], ($length) - 1, 1 );
    }
    print "$text\n";
}
Remove ads

Note

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads