Лучшие вопросы
Таймлайн
Чат
Перспективы
Триграмма (анализ текста)
Из Википедии, свободной энциклопедии
Remove ads
Триграммы являются частным случаем n-грамм, где n равно 3. Они часто используются в обработке естественного языка для проведения статистического анализа текстов и в криптографии для контроля и использования шифров и кодов.
Частотность
Контекст очень важен, варьирование рангов и процентов анализа легко выводится на основе разных размеров выборки, разных авторов; или разных типов документов: поэзия, научная фантастика, технологическая документация; и уровней написания: рассказы для детей против взрослых, военные приказы и рецепты. [1][2]
Типичный криптоаналитический частотный анализ показывает, что 16 наиболее распространенными триграммами уровня символов в английском языке являются:
Поскольку в шифрованных сообщениях, отправляемых по телеграфу, часто опускаются знаки препинания и пробелы, криптографический частотный анализ таких сообщений включает триграммы, которые пересекают границы слов. Это приводит к тому, что такие триграммы, как «edt», встречаются часто, хотя они могут никогда не встречаться ни в одном слове этих сообщений.[4]
Remove ads
Примеры
Предложение «The quick red fox jumps over the lazy brown dog» имеет следующие триграммы на уровне слов:
the quick red quick red fox red fox jumps fox jumps over jumps over the over the lazy the lazy brown lazy brown dog
А триграмма уровня слова «the quick red» имеет следующие триграммы уровня символов (где знак подчеркивания «_» обозначает пробел):
the he_ e_q _qu qui uic ick ck_ k_r _re red
Примечания
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads