Imputação de Valores Faltantes

Este é um componente para imputação de valores faltantes usando média, mediana ou mais frequente. Faz uso da implementação do Scikit-learn. Scikit-learn é uma biblioteca open source de machine learning que suporta apredizado supervisionado e não supervisionado. Também provê várias ferramentas para montagem de modelo, pré-processamento de dados, seleção e avaliação de modelos, e muitos outros utilitários.

Espera-se como entrada para o componente uma tabela com colunas que representam valores numéricos, categóricos ou de data. A tabela deve ser de um dos seguintes tipos: Comma-separated values (.csv) ou Excel (.xls, .xlsx).

A seguir são listados todos os parâmetros utilizados pelo componente:

Atributo alvo: feature.
Esse valor será utilizado para garantir que o alvo não seja removido.
Estratégia de atribuição de valores para colunas numéricas: string, {"mean", "median", "most_frequent"=, "constant"}, padrão: "mean".
Os valores ‘mean' e ‘median' são utilizados apenas para atributos numéricos,‘most_frequent' é para atributos numéricos e categóricos e ‘constant' substituirá os valores ausentes por fill_value.
Estratégia de atribuição de valores para colunas categóricas: string, {"most_frequent", "constant"}, padrão: "most_frequent".
O valor ‘most_frequent' é para atributos numéricos e categóricos e ‘constant' substituirá os valores ausentes por fill_value.
Valor de preenchimento para colunas numéricas: integer, padrão: 0.
Valor a ser preenchido no lugar de valores nulos (utilizado apenas com estratégia ‘constant').
Valor de preenchimento para colunas categóricas: string, padrão: "".
Valor a ser preenchido no lugar de valores nulos (utilizado apenas com estratégia ‘constant').

O retorno durante a experimentação ajuda o usuário a analisar tanto métricas distintas de forma visual, como a distribuição dos dados e os dados brutos ao final da execução. Sendo assim, é possível visualizar diversos retornos para este componente como os listados a seguir:

Tabela dos dados
Apresenta visualização dos dados após o treinamento do modelo com a variável resposta e dados sobre o modelo.

Dados sem valores nulos.