Este é um componente que utiliza a biblioteca nltk e ftfy e regex para pré processar textos que entrrão em outros componentes.
Espera-se como entrada para o componente uma tabela com pelo menos uma coluna em formato de texto.
A seguir são listados todos os parâmetros utilizados pelo componente:
- Atributo alvo:
feature
(Obrigatório).
Seu modelo será treinado para prever os valores do alvo.
- Linguagem:
string
, {"Português"
, "Inglês"
}, padrão: "Português"
.
Linguagem para pre-processar.
- Aplicação de casing:
string
, {"Caixa baixa"
, "Caixa alta"
, "Não Aplicar"
}, padrão: "Caixa baixa"
.
Caixa baixa, caixa alta ou não aplicação de caixa.
- Remoção de Stop Words:
boolean
, {True
, False
}, padrão:True
.
Caso True remove conjunções, artigos e outros textos que não carregam informações relevantes para certas classes de algorítmos de NLP.
- Remoção de Top Words:
boolean
, {True
, False
}, padrão:True
.
Caso True remove as palavras que mais aparece todo texto, em que a porcentagem pe controlada.
- Porcentagem de Top Words:
float
, padrão:0.01
.
Porcentagem das palavras que mais aparecem.
- Stemming:
boolean
, {True
, False
}, padrão:False
.
Caso True aplica stemming. Esta técnica remove os sufixos das palavras.
- Lemmatization:
boolean
, {True
, False
}, padrão:False
.
Caso True aplica lemmatization. Esta técnica mantém apenas as raízes das palavras.
- Remoção de pontuação:
boolean
, {True
, False
}, padrão:False
.
Caso True remove as pontuações do texto.
- Remoção de quebras de linha:
boolean
, {True
, False
}, padrão:False
.
Caso True remove todas as quebras de linha \n e \r no texto.
- Remoção de acentos:
boolean
, {True
, False
}, padrão:False
.
Caso True remove todos os acentos no texto.
- Remoção de HTML:
boolean
, {True
, False
}, padrão:False
.
Caso True remove todas as tags HTML. Estas possuem o formato
- Remoção de CSS:
boolean
, {True
, False
}, padrão:False
.
Caso True remove todas as tags CSS. Estas possuem o formato {tag}
- Espera-se como retorno os textos pré-processados em formato de tabela para as colunas especificadas.
Espera-se como retorno os textos pré-processados em formato de tabela para as colunas especificadas.