Este componente treina um modelo de Regressão Linear usando Scikit-learn. Scikit-learn é uma biblioteca open source de machine learning que suporta apredizado supervisionado e não supervisionado. Também provê várias ferramentas para ajustes de modelos, pré-processamento de dados, seleção e avaliação de modelos, além de outras funcionalidades.

Espera-se como entrada para o componente uma tabela com colunas que representam valores numéricos, categóricos ou de data. Os valores de data devem ser removidos ou selecionados para codificação ordinal para que o modelo consiga processá-los. A tabela deve ser de um dos seguintes tipos: Comma-separated values (.csv) ou Excel (.xls, .xlsx).

A seguir são listados todos os parâmetros utilizados pelo componente:

As métricas de performance tem o propósito de ajudar o usuário a avaliar a performance do modelo. Essas métricas variam de acordo com o tipo de problema, tal como: classificação, regressão, agrupamento, entre outros.

  1. Coeficiente de determinação (ou R²): Corresponde à correlação ao quadrado entre os valores de resultado observados e os valores previstos pelo modelo.
  2. Erro médio absoluto (MAE): Média do erro absoluto considerando os valores de resultado observados e os valores previstos pelo modelo.
  3. Erro médio quadrático (MSE): Média quadrática do erro considerando os valores de resultado observados e os valores previstos pelo modelo.

O retorno durante a experimentação ajuda o usuário a analisar tanto métricas distintas de forma visual, como a distribuição dos dados e os dados brutos ao final da execução. Sendo assim, é possível visualizar diversos retornos para este componente como os listados a seguir:

  1. Dados de teste
    Apresenta a distribuição dos dados de teste considerando as duas características mais relevantes para o modelo e o rótulo.
  2. Distribuição do erro na regressão
    Apresenta a distribuição do erro na regressão como uma estimativa de densidade do kernel. Significa que 95% dos erros estão abaixo da linha azul contínua e 70% deles se encontram dentro da faixa vermelha. No eixo "Estimativa de densidade do kernel" pode-se entender que há mais erros daquela magnitude, olhar o eixo "Erro obtido", para valores maiores de estimativa de densidade.
  3. Distribuição do rótulo
    Apresenta a diferença entre o resultado observado e os valores preditos.
  4. Distribuição do rótulo ordenada
    Apresenta a diferença entre o resultado observado e os valores preditos de maneira ordenada.
  5. Erro absoluto
    Apresenta o erro absoluto considerando o resultado observado e os valores preditos.
  6. Probabilidade do erro
    Apresenta a comparação do erro e da normal.
  7. Erro por segmento
    Apresenta comparação da estimativa de densidade do kernel para segmentos distintos.
  8. Tabela dos dados
    Apresenta visualização dos dados após o treinamento do modelo com a variável resposta e dados sobre o modelo.

O retorno durante a implantação se refere a tabela com os valores preditos para o atributo alvo. Sendo que, cada linha da tabela se refere a um registro enviado ao modelo.