Agrupamento de Features Categóricas

Este componente realiza o agrupamento de features categóricas com alta cardinalidade para serem implementadas por modelos de classificação. Neste componente são implementadas três estratégias de agrupamento (method):

percent: o agrupamento é feito considerando um ponto de corte definido. Categorias abaixo desse limiar são agrupadas em uma categoria denominada "other";
top_n: apenas as n categorias mais frequentes são mantidas. As demais são agrupadas em uma categoria denominada "other";
kmeans: Para cada classe, são calculadas sua frequência relativa e porcentagem de casos positivos da variável resposta. Então, o algoritmo kmeans utiliza estas informações para o agrupamento.

Espera-se como entrada para o componente uma tabela com colunas que representam valores numéricos, categóricos ou de data. A tabela deve ser de um dos seguintes tipos: Comma-separated values (.csv) ou Excel (.xls, .xlsx).

A seguir são listados todos os parâmetros utilizados pelo componente:

Atributo alvo: feature (Obrigatório).
Esse valor será utilizado para garantir que o alvo não seja removido.
Features categóricas para fazer agrupamento de classes: feature (Obrigatório).
O agrupamento será feito considerando apenas as features categóricas selecionadas neste parâmetro.
Estratégia de agrupamento: string, {"percent", "top_n", "kmeans"}, padrão: "kmeans".
O agrupamento será feito considerando apenas as features categóricas selecionadas neste parâmetro.
Ponto de corte para agrupamento: float, padrão: 0.1.
Classes com frequência relativa abaixo desse ponto de corte serão agrupadas em uma mesma classe.
Número de classes que deverão ser mantidas/criadas: integer, padrão: 10.
Se a estratégia for kmeans, n representa o número de grupos criados pelo algoritmo, se for top_n, as n classes mais frequentes serão mantidas.

O retorno durante a experimentação ajuda o usuário a analisar tanto métricas distintas de forma visual, como a distribuição dos dados e os dados brutos ao final da execução. Sendo assim, é possível visualizar diversos retornos para este componente como os listados a seguir:

Tabela dos dados
Apresenta visualização dos dados após o treinamento do modelo com a variável resposta e dados sobre o modelo.

Retorno esperado na implantação

Dados com colunas categóricas de alta cardinalidade agrupadas.