Mineração de texto
análise textual para extrair informações relevantes através de técnicas estatísticas e de processamento linguístico / De Wikipedia, a enciclopédia encyclopedia
Mineração de texto, conhecida também como mineração de dados textuais e semelhante à análise textual, refere-se ao processo de obtenção de informações importantes de um texto. Informações importantes são obtidas normalmente pela elaboração de padrões e tendências através de meios como o padrão estatístico de aprendizagem. Geralmente a mineração de texto envolve o processo de estruturação do texto de entrada (frequentemente análise, junto com a adição de algumas características linguísticas derivadas e com a retirada de outras, e com a subsequente inserção em um banco de dados), de derivação de padrões dentro da estrutura de dados e, por fim, de avaliação e interpretação do resultado. Geralmente, “importante” em mineração de texto refere-se a algumas combinações de relevância, originalidade e interesse. Tarefas típicas de mineração de texto incluem categorização e agrupamento de texto, extração de conceito/entidade, produção de taxonomias granulares, análise de sentimentos [1][2] , resumo de documentos e modelagem de relações entre entidades (ex., aprender relações entre entidades nomeadas).
Foram assinalados vários problemas nesta página ou se(c)ção:
|
A análise de texto envolve informações de recuperação, análise lexical a fim de estudar a frequência de distribuição de palavras, reconhecimento de padrões, identificação/anotação, extração de informações, técnicas de mineração de dados que incluem link e associação de análises, visualização e analítica preditiva. O objetivo maior é transformar o texto em dados para análise, por meio da aplicação do processamento de linguagem natural (PLN) e de métodos analíticos.
Uma aplicação comum é examinar um conjunto de documentos escritos em uma linguagem natural e, ou modelar o conjunto de documentos para fins de classificação preditiva ou preencher um banco de dados ou índice de pesquisa com as informações extraídas.