Топ питань
Часова шкала
Чат
Перспективи

Лексична насиченість

З Вікіпедії, вільної енциклопедії

Remove ads

Лексична насиченість (словникова різноманітність, лексична щільність) – відношення кількості різних слів до загальної кількості слів у тексті, використовується як одна величина, що характеризує текст.

Обчислення

Алгоритм знаходження лексичної насиченості тексту складається з наступних кроків:

  1. Визначення вхідного набору слів - це може бути як змістовний текст чи його частина, так і довільна сукупність слів.
  2. Перетворення кожного слова у його словникову форму (для спрощення можна використовувати стемінг, однак варто зазначити, що в такому разі досить велика кількість різних слів будуть перетворені в однакові стеми через недосконалість самих методів стемінгу). При цьому відбувається поправка набору слів.
  3. = кількість слів після перетворення.
  4. Видалення усіх дублікатів.
  5. = кількість слів після видалення.
  6. Лексична насиченість:
Remove ads

Поправка набору слів

Узагальнити
Перспектива

Під час обчислення лексичної насиченості виникає питання вибору належності невідомих слів (тих, які відсутні в словнику) до того чи іншого набору. Існує чотири підходи до вирішення цього питання:

  • Зарахування невідомих слів до загального набору, але не до унікальних слів.
  • Зарахування невідомих слів до загального набору і набору унікальних слів.
  • Видалення невідомих слів на стадії перетворення у словникові форми.
  • Ручний ("ідеальний") розподіл.

Розглянемо ці методи на прикладах.

Більше інформації Метод, Чистий текст: Хвойний ліс — ліс, складений майже винятково з дерев хвойних порід. ...

Отже, доцільно використовувати метод видалення невідомих слів на стадії перетворення у словникові форми. Незважаючи на те, що текст з вірними невідомими словами - найпоширеніший випадок, у ньому обраний метод хоч і не є найкращим, але все ж має досить невелике відхилення від результату ручного розподілу.

Окремою проблемою є визначення належності для іншомовних слів. Якщо їх кількість незначна, у порівнянні з об'ємом тексту, можна віднести такі слова до невідомих.

Remove ads

Оцінка лексичної насиченості

Щоб отримати об'єктивне враження про лексичну насиченість тексту, необхідно обчислене відношення привести до значення на певній шкалі. Наприклад, перетворити у проценти. Однак в цьому випадку постане серйозна проблема нелінійного зменшення такого значення зі збільшенням кількості слів.

Якщо взяти реальний текст довжиною десять слів, то його лексична насиченість буде в межах 80%-100%. Якщо кількість слів 1000, то лексична насиченість вже падає до 50%. З точки 200 тисяч слів (у вхідному тексті) кількість різних слів фактично перестане збільшуватись.

Одним зі способів вирішити цю проблему є визначення пікових значень лексичної насиченості на реальних текстах довжиною у 100, 500, 1000, 2000, 5000 і т.д. слів (що більше значень, то краще) та взяти відповідні пікові значення в певному околі за 100%.

Зміна лексичної насиченості

Узагальнити
Перспектива

Вирішення такої задачі базується на виділенні окремих груп певної кількості слів.

Thumb
Обчислення зміни лексичної насиченості

Тут – слово із тексту; – обчислене значення насиченості для j-ї групи слів довжиною n, . Фактично, відбувається просування блоку, що відповідає за початок та кінець тексту для обчислення насиченості, на одне слово для кожної нової точки графіка (масиву значень). Тому число точок на результуючому графіку становитиме D = N – n + 1. Алгоритм обчислення зміни насиченості:

  1. Отримання блоку перших n слів із перетворених у словникові форми слів тексту
  2. Обчислення насиченості одержаного блоку та збереження її в результуючий масив
  3. Якщо останнє слово блоку – це останнє слово перетвореного тексту, то завершити процедуру
  4. Відкинути перше слово та перейти на пункт 1.

Для зручності інтерпретації результатів аналізу тексту фахівцями варто відображати графік залежності лексичної насиченості блоку від позиції у тексті. Проаналізувавши декілька творів при різних значеннях n, було визначено, що аналіз графічного результату варто проводити, коли n=500. При значно більших чи значно менших значеннях графік згладжується, адже різниця в насиченості стає мінімальною (при великих значеннях n вона завжди низька, а при малих значеннях n – завжди висока).

Remove ads

Джерела

  • Яворський Є.О., Левус Є.В., Бук С.Н. /Алгоритм відображення зміни лексичної насиченості тексту. - НУ "ЛП". - 2013.
  • Шевелев О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: автореферат диссертации. – Томск. – 2006.
  • Верес М.М., Лемківський Є.О., Омельченко О.А. Масово розподілений пошуковий робот //Проблеми інформаційних технологій. – 2011. – №1 (009).
  • Кыштымова И.М. Психосемиотический анализ текста: диагностическое значение категории "время". - Режим доступу: http://www.lib.tsu.ru/mminfo/000085170/26/image/26-050.pdf%5Bнедоступне+посилання+з+липня+2019%5D.
  • Горелов И. Н., Седов К. Ф. Основы психолингвистики. — Москва. – 1997.
  • Засєкіна Л. В. Вступ до психолінгвістики / Л. В. Засєкіна, С. В. Засєкін. – Острог: Вид-во Нац. ун-ту «Острозька академія», 2002. – 168 с.
Remove ads
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads