Este componente é um classificador sentenças multiclasse baseado nos pacotes de Embeddings GloVe disponiblizado pela Stanford para a lngua inglesa e pelo NILC-São Carlos para a língua portuguesa.

Espera-se como entrada para o componente uma tabela com colunas que representam valores numéricos, categóricos ou de data. Os valores de data devem ser removidos ou selecionados para codificação ordinal para que o modelo consiga processá-los. A tabela deve ser do tipo Comma-separated values (.csv)

A seguir são listados todos os parâmetros utilizados pelo componente:

As métricas de performance tem o propósito de ajudar o usuário a avaliar a performance do modelo. Essas métricas variam de acordo com o tipo de problema, tal como: classificação, regressão, agrupamento, entre outros.

  1. Acurácia: Indica uma performance geral do modelo. Dentre todas as classificações, quantas o modelo classificou corretamente.
  2. Recall: Dentre todas as situações de classe positivo como valor esperado, quantas estão corretas.
  3. F1-Score: Média harmônica entre precisão e recall.
  4. Suporte: Número de ocorrências de cada classe esperadas
  5. Matriz de confusão: Tabela que mostra as frequências de classificação para cada classe do modelo
  6. Curvas de peformance: Monitoram as curvas de perda e acurácia durante o treino e validação para batchs e para épocas.

O retorno durante a experimentação ajuda o usuário a analisar tanto métricas distintas de forma visual, como a distribuição dos dados e os dados brutos ao final da execução. Sendo assim, é possível visualizar diversos retornos para este componente como os listados a seguir:

  1. Matriz de confusão
    Apresenta a matriz de confusão. É possível obsersar relações entre os acertos e erros das cada classe.
  2. Métricas comuns
    Apresenta métricas comuns utilizadas para avaliar modelos de classificação, como por exemplo: precision e recall.
  3. Curva ROC
    Apresenta um gráfico da Curva ROC. Esse gráfico permite avaliar a performance de um classificador binário para diferentes pontos de cortes. A métrica AUC (Area under curve) também é calculada e indicada na legenda do gráfico. Se a variável resposta tiver mais de duas categorias, o cálculo da curva ROC e AUC é feito utilizando o algoritmo one-vs-rest, ou seja, calcula-se a curva ROC e AUC de cada classe em relação ao restante.
  4. Tabela dos dados
    Apresenta visualização dos dados após o treinamento do modelo com a variável resposta e dados sobre o modelo.
  5. Performance de treino por batch
    Comportamento da acurácia e da função de perda por batch na etapa de treino.
  6. Performance de treino por época
    Comportamento da acurácia e da função de perda por época na etapa de treino.
  7. Performance de validação por batch
    Comportamento da acurácia e da função de perda por batch na etapa de validação.
  8. Performance de validação por época
    Comportamento da acurácia e da função de perda por época na etapa de validação.

O retorno durante a implantação se refere a tabela com os valores preditos para o atributo alvo e as probabilidades de cada classe. Sendo que, cada linha da tabela se refere a um registro enviado ao modelo.