Detecção de Anomalias por Isolation Forest

Este é um componente que treina um modelo Isolation Forest usando Scikit-learn.
Scikit-learn é uma biblioteca open source de machine learning que suporta apredizado supervisionado e não supervisionado. Também provê várias ferramentas para ajustes de modelos, pré-processamento de dados, seleção e avaliação de modelos, além de outras funcionalidades.

Espera-se como entrada para o componente uma tabela com colunas que representam valores numéricos, categóricos ou de data. Os valores de data devem ser removidos ou selecionados para codificação ordinal para que o modelo consiga processá-los. A tabela deve ser de um dos seguintes tipos: Comma-separated values (.csv) ou Excel (.xls, .xlsx).

A seguir são listados todos os parâmetros utilizados pelo componente:

Quantidade máxima de características: float, padrão: "auto".
O número de características máximo a serem retiradas dos dados para treinar cada estimador de base.
Contaminação: float, padrão: 0.1.
A quantidade de contaminação do conjunto de dados, ou seja, a proporção de outliers no conjunto de dados.
Quantidade máxima de amostras: float, padrão: 1.0.
O número de amostras máximo a serem retiradas dos dados para treinar cada estimador de base.
Gráficos a serem ignorados: string, {"Dados de Teste", "Tabelas de Dados"}.
Considerando a quantidade de gráficos que são retornados ao executar a experimentação, o usuário pode selecionar quais ele não deseja visualizar. Métricas de performance As métricas de performance tem o propósito de ajudar o usuário a avaliar a performance do modelo. Essas métricas variam de acordo com o tipo de problema, tal como: classificação, regressão, agrupamento, entre outros.

Pontuação de anomalia: considerando que o modelo faz a predição da anomalia, ela mesma é utilizada para avaliar o modelo. Retorno esperado na experimentação As métricas de performance tem o propósito de ajudar o usuário a avaliar a performance do modelo. Essas métricas variam de acordo com o tipo de problema, tal como: classificação, regressão, agrupamento, entre outros.
Dados de teste
Apresenta a distribuição dos dados de teste considerando as duas características mais relevantes para o modelo.
Tabela dos dados
Apresenta visualização dos dados após o treinamento do modelo com a variável resposta e dados sobre o modelo. Retorno esperado na implantação Tabela com os valores preditos de anomalia.