Calgary corpus

Il Calgary corpus è una raccolta di file di testo e binari utilizzata comunemente negli anni '90 per il confronto degli algoritmi di compressione dei dati. È stato creato nel 1987 da Ian Witten, Tim Bell e John Clearly della Università di Calgary. Nel 1997 è stato sostituito dal Canterbury corpus^[1].

[1]

Dimensione (byte)	Nome del file	Descrizione
111,261	BIB	testo ASCII in formato UNIX "refer" – 725 riferimenti bibliografici.
768,771	BOOK1	testo ASCII non formattato – Thomas Hardy: Far from the Madding Crowd.
610,856	BOOK2	testo ASCII formato UNIX "troff" – Witten: Principles of Computer Speech.
102,400	GEO	numeri a 32 bit in formato IBM floating point – dati sismici.
377,109	NEWS	testo ASCII – file batch USENET su vari argomenti.
21,504	OBJ1	programma eseguibile VAX – compilazione di PROGP.
246,814	OBJ2	programma eseguibile Macintosh – "Knowledge Support System".
53,161	PAPER1	formato UNIX "troff" – Witten, Neal, Cleary: Arithmetic Coding for Data Compression.
82,199	PAPER2	formato UNIX "troff" – Witten: Computer (in)security.
513,216	PIC	immagine bitmap 1728 x 2376 (MSB first): testo in francese e diagrammi lineari.
39,611	PROGC	codice sorgente in C – UNIX compress v4.0.
71,646	PROGL	codice sorgente in Lisp – software di sistema.
49,379	PROGP	codice sorgente in Pascal – programma per valutare la compressione PPM.
93,695	TRANS	ASCII e caratteri di controllo – trascrizione di una sessione di terminale.

Calgary corpus

Contenuto

Note

Collegamenti esterni

Wikiwand - on