Aprendizagem não-supervisionada de características esparsas para classificação escalável de áudio

Neste seminário apresentaremos o trabalho premiado como melhor artigo de estudante no ISMIR 2011 de Mikael Henaff, Kevin Jarrett, Koray Kavukcuoglu e Yann LeCun, entitulado Unsupervised learning of sparse features for scalable audio classification.<blockquote>Será apresentado um sistema para aprender características do áudio automaticamente de um maneira não-supervisionada. O método primeiro aprende um dicionário super-completo o qual pode ser usado para decompor esparsamente espectrogramas espaçados logaritmicamente. Em seguida, é treinado um codificador eficiente que mapeia rapidamente novas entradas para aproximações de suas representações esparsas usando o dicionário aprendido. Isto evita custosos procedimentos iterativos normalmente exigidos para a inferência de códigos esparsos. Estes códigos esparsos são utilizados como entradas para uma Máquina de Suporte Vetorial linear (Support Vector Machine - SVM). Este sistema atinge 83.4% de acurácia ao predizer gêneros musicais no banco de dados GTZAN, o que é competitivo com abordagens empregadas atualmente. Além disso, o uso de um classificador linear simples combinado com um sistema eficiente de extração de características permite que a abordagem seja escalável em bancos de dados grandes.</blockquote>