Representações Tempo-Frequenciais de Alta Definição para Extração de Informação Musical

Representações tempo-frequenciais (RTFs) são uma das ferramentas mais valiosas em processamento digital de áudio, sendo utilizadas em diversas aplicações. RTFs podem ser calculadas tendo diferentes resoluções em tempo e em frequência e podem, inclusive, representar determinadas variações em frequência, como no caso do uso da transformada de fan-chirp. A maior deficiência de RTFs é o espalhamento de energia relacionado à não-estacionariedade do sinal na região da janela de análise. Esse tipo de artefato geralmente resulta em prejuízo de desempenho da aplicação que utilize tal RTF; portanto, ter RTFs que representem precisamente os sinais de interesse é essencial para melhorar o desempenho de tais sistemas.

Uma forma de se calcular RTFs de alta resolução é combinar RTFs de diferentes resoluções de forma a preservar os melhores aspectos de cada uma. Essa é a ideia geral que embasa todos os métodos propostos nesse seminário, do qual o principal objetivo é possibilitar a representação precisa de sinais de melodia principal em contextos polifônicos. Os métodos são classificados como: combinações ponto-a-ponto, combinações baseadas em informação local, e combinações baseadas em análise de imagem. Seus desempenhos são medidos por meio de diversos experimentos, em que são utilizados sinais sintéticos controlados e sinais reais, e os resultados apontam o método proposto de interpolação de fan-chirps em multirresolução como o melhor em termos de largura de banda de frequência, definição de onset e faixa dinâmica.