Este é um componente para imputação de valores faltantes usando média, mediana ou mais frequente. Faz uso da implementação do Scikit-learn. Scikit-learn é uma biblioteca open source de machine learning que suporta apredizado supervisionado e não supervisionado. Também provê várias ferramentas para montagem de modelo, pré-processamento de dados, seleção e avaliação de modelos, e muitos outros utilitários.
Espera-se como entrada para o componente uma tabela com colunas que representam valores numéricos, categóricos ou de data. A tabela deve ser de um dos seguintes tipos: Comma-separated values (.csv) ou Excel (.xls, .xlsx).
A seguir são listados todos os parâmetros utilizados pelo componente:
feature
.string
, {"mean"
, "median"
, "most_frequent"
=, "constant"
}, padrão: "mean"
.string
, {"most_frequent"
, "constant"
}, padrão: "most_frequent"
.integer
, padrão: 0
.string
, padrão: ""
.O retorno durante a experimentação ajuda o usuário a analisar tanto métricas distintas de forma visual, como a distribuição dos dados e os dados brutos ao final da execução. Sendo assim, é possível visualizar diversos retornos para este componente como os listados a seguir:
Dados sem valores nulos.