Извлечение знаний

Извлечение знаний (англ. knowledge extraction) — создание знаний из структурированных (реляционных баз данных, XML) и неструктурированных источников (тексты, документы, изображения). Полученное знание должно иметь формат, позволяющий компьютерный ввод, и должно представлять знания так, чтобы облегчить логические выводы. Хотя по методике процесс подобен извлечению информации (обработке естественного языка, англ. Natural language processing, NLP) и процессу «Извлечения, Преобразования, Загрузки» (англ. Extract, Transform, Load, ETL, для хранилищ данных), главный критерий результата — создание структурированной информации или преобразование в реляционную схему. Это требует либо преобразования существующего формального знания (повторного использования идентификаторов или онтологий), либо генерацией схемы, основанной на исходных данных.

Группа RDB2RDF W3C^[1] занимается стандартизацией языка для извлечения среды описания ресурса (англ. resource description frameworks, RDF) из реляционной базы данных. Другой популярный пример извлечения знаний — преобразование Википедии в структурированные данные и отображение в существующее знание (см. DBpedia и Freebase).