Uma contribuição ao problema de seleção de modelos neurais usando o princípio de máxima correlação dos erros

Propoe-se nesta tese um metodo de poda de pesos para redes Perceptron Multicamadas (MLP). Tecnicas classicas de poda convencionais, tais como Optimal Brain Surgeon(OBS) e Optimal Brain Damage(OBD), baseiam-se na analise de sensibilidade de cada peso da rede, o que requer a determinacao da inversa da matriz Hessiana da funcao-custo. A inversao da matriz Hessiana, alem de possuir um alto custo computacional, e bastante susceptivel a problemas numericos decorrentes do mal-condicionamento da mesma. Metodos de poda baseados na regularizacao da funcao-custo, por outro lado, exigem a determinacao por tentativa-e-erro de um parâmetro de regularizacao. Tendo em mente as limitacoes dos metodos de poda supracitados, o metodo proposto baseia-se no "Principio da Maxima Correlacao dos Erros" (MAXCORE). A ideia consiste em analisar a importância de cada conexao da rede a partir da correlacao cruzada entre os erros em uma camada e os erros retropropagados para a camada anterior, partindo da camada de saida em direcao a camada de entrada. As conexoes que produzem as maiores correlacoes tendem a se manter na rede podada. Uma vantagem imediata deste procedimento esta em nao requerer a inversao de matrizes, nem um parâmetro de regularizacao. O desempenho do metodo proposto e avaliado em problemas de classi ficacao de padroes e os resultados sao comparados aos obtidos pelos metodos OBS/OBD e por um metodo de poda baseado em regularizacao. Para este fi m, sao usados, alem de dados arti cialmente criados para salientar caracteristicas importantes do metodo, os conjuntos de dados bem conhecidos da comunidade de aprendizado de maquinas: Iris, Wine e Dermatology. Utilizou-se tambem um conjunto de dados reais referentes ao diagnostico de patologias da coluna vertebral. Os resultados obtidos mostram que o metodo proposto apresenta desempenho equivalente ou superior aos metodos de poda convencionais, com as vantagens adicionais do baixo custo computacional e simplicidade. O metodo proposto tambem mostrou-se bastante agressivo na poda de unidades de entrada (atributos), o que sugere a sua aplicacao em selecao de caracteristicas.