Ogni lingua si differenzia dalle altre per caratteristiche statistiche quali la frequenza delle singole lettere, dei bigrammi e dei digrammi; nell'insieme queste caratteristiche costituiscono una vera e propria impronta digitale della lingua.
Per esempio, l'italiano è una lingua molto vocalizzata, l'inglese, al contrario, presenta un'alta frequenza di consonanti. Il francese è anch'esso molto vocalizzato anche se é ricco di lettere come la J, che in italiano sono poco frequenti. La lettera E è la più frequente in quasi tutte le lingue europee, in particolare in francese e in tedesco ha una prevalenza nettissima.
Questa impronta digitale è di grande importanza per la crittanalisi statistica.
Grazie ad un programma Pascal siamo riuscite ad analizzare statisticamente varie lingue.
Le lingue prese in considerazione sono:
Sono inoltre disponibili pagine dinamiche (realizzate in PhP):