Pré Processador de texto

Este é um componente que utiliza a biblioteca nltk e ftfy e regex para pré processar textos que entrrão em outros componentes.

Espera-se como entrada para o componente uma tabela com pelo menos uma coluna em formato de texto.

A seguir são listados todos os parâmetros utilizados pelo componente:

Atributo alvo: feature (Obrigatório).
Seu modelo será treinado para prever os valores do alvo.
Linguagem: string, {"Português", "Inglês"}, padrão: "Português".
Linguagem para pre-processar.
Aplicação de casing: string, {"Caixa baixa", "Caixa alta", "Não Aplicar"}, padrão: "Caixa baixa".
Caixa baixa, caixa alta ou não aplicação de caixa.
Remoção de Stop Words: boolean, {True, False}, padrão:True.
Caso True remove conjunções, artigos e outros textos que não carregam informações relevantes para certas classes de algorítmos de NLP.
Remoção de Top Words: boolean, {True, False}, padrão:True.
Caso True remove as palavras que mais aparece todo texto, em que a porcentagem pe controlada.
Porcentagem de Top Words: float, padrão:0.01.
Porcentagem das palavras que mais aparecem.
Stemming: boolean, {True, False}, padrão:False.
Caso True aplica stemming. Esta técnica remove os sufixos das palavras.
Lemmatization: boolean, {True, False}, padrão:False.
Caso True aplica lemmatization. Esta técnica mantém apenas as raízes das palavras.
Remoção de pontuação: boolean, {True, False}, padrão:False.
Caso True remove as pontuações do texto.
Remoção de quebras de linha: boolean, {True, False}, padrão:False.
Caso True remove todas as quebras de linha \n e \r no texto.
Remoção de acentos: boolean, {True, False}, padrão:False.
Caso True remove todos os acentos no texto.
Remoção de HTML: boolean, {True, False}, padrão:False.
Caso True remove todas as tags HTML. Estas possuem o formato
Remoção de CSS: boolean, {True, False}, padrão:False.
Caso True remove todas as tags CSS. Estas possuem o formato {tag}

Espera-se como retorno os textos pré-processados em formato de tabela para as colunas especificadas.

Espera-se como retorno os textos pré-processados em formato de tabela para as colunas especificadas.