Balanceando Exploration e Exploitation como Estratégia para Aprimorar Recomendadores de Música
Sistemas personalizados de recomendação de música operam geralmente recomendando itens para um determinado usuário de acordo com seus dados históricos de escuta. Essa abordagem porém apresenta um caráter guloso a longo prazo pois recomenda itens mais consumidos com maior frequência e deixa de explorar novas possibilidades.
Nesse seminário apresentamos uma estratégia que procura amenizar esse problema balanceando segurança (exploitation) e novidade (exploration) no ato da recomendação. O sistema de recomendação é comparado a um conjunto de máquinas de caça níquel em um problema conhecido como multi-armed bandit da área de aprendizagem reforçada. Alguns resultados práticos extraídos da literatura são apresentados como tendo sido bem sucedidos em situações de recomendação de longo prazo e em situações de novos itens inseridos na base de dados.