Como funcionam os aplicativos de identificação de música como o Shazam?

Identificação do aplicativo Shazam para iPhone
Shazam

Aplicativos de identificação de música parecem mágica no início, mas por baixo do capô está um algoritmo sofisticado que pode encontrar músicas em um instante. Veja como eles funcionam.

A magia da identificação musical

Provavelmente já aconteceu com todos nós. Você está jantando em um bom restaurante, em uma cafeteria ou caminhando por uma loja quando de repente ouve uma ótima música tocando nos alto-falantes. Talvez seja uma música que você já ouviu antes ou uma faixa que nunca ouviu. Então, você pega seu telefone, abre o Shazam e levanta seu dispositivo contra o teto. Em apenas um flash, o aplicativo informa qual é a música, quem é o artista e onde reproduzi-la.

Eles são rápidos, extremamente precisos e podem identificar até as músicas mais obscuras. Resumindo, eles trabalham isolando a música de uma gravação e pesquisando-a em um banco de dados extenso de faixas. Mas a tecnologia por trás de como eles fazem isso é bastante complexa e impressionante.

Você pode ficar chocado ao saber que o aplicativo Shazam que conhecemos hoje foi lançado em 2002, e o sistema era tão preciso e rápido como é agora. Isso tudo graças a um algoritmo único que revolucionaria o mundo da música.

Não é apenas a letra

À primeira vista, aplicativos de identificação de música como o Shazam podem parecer simples. Você pode pensar que eles apenas ouvem a letra, da mesma forma que qualquer assistente de voz, e pesquisam em um banco de dados de letras de músicas para saber qual é a música.

Recomendado:  Como definir uma imagem ou moldura de perfil temporário do Facebook

No entanto, a maioria dos aplicativos de identificação de música são capazes de dizer qual é o título de um instrumental, ou mesmo o cantor de um cover. Isso porque, ao invés de analisar a letra da faixa, eles estão procurando por “impressões digitais” que são únicas para cada música em seus extensos bancos de dados.

Tecnologia de impressão digital

Shazam em um iPhone X
Denys Prykhodov / Shutterstock.com

Você provavelmente tem dispositivos que podem ser desbloqueados usando sua impressão digital, que é a disposição das pequenas linhas em seu dedo que são exclusivas para você. Da mesma forma, quando você segura seu microfone para gravar um breve clipe de uma música, esse clipe se transforma em padrões de dados que o Shazam ou outro aplicativo pode consultar em seu banco de dados.

À primeira vista, esse método parece sujeito a vários problemas. Na maioria das vezes que você ouve música em público, há ruído de fundo e distorção causados ​​pelos alto-falantes, o que pode tornar as músicas não identificáveis ​​ou resultar em correspondências imprecisas. Além disso, muitos dados são capturados até mesmo em um breve clipe de som, o que pode tornar lenta a busca por esses padrões em um banco de dados de milhões de músicas.

Em uma entrevista para a Scientific American em 2003, Avery Li-Chun Wang, cientista-chefe de dados e cofundadora do Shazam, explica como seu algoritmo corrige esses problemas. As informações de um clipe de áudio podem ser visualizadas com um gráfico 3D conhecido como espectrograma, que representa uma mudança nas frequências ao longo do tempo. Ele também leva em consideração a amplitude, que é o quão alto o som é. Isso é representado em um espectrograma usando a intensidade da cor.

Recomendado:  4 maneiras de alternar contas de usuário no Windows 11
Espectrograma musical Shazam
Avery Li-Chun Wang / Shazam

Da mesma forma que os humanos não conseguem perceber o som a menos que estejam em uma determinada frequência, em vez de levar em consideração a totalidade de uma música ao realizar uma pesquisa, o Shazam leva apenas os “picos”, que é o conteúdo de maior energia em um clipe de áudio . As impressões digitais que captura apenas nos pontos de frequência mais alta dentro de um determinado período de tempo e, em seguida, os pontos de amplitude de pico dentro dessas frequências.

Em um artigo de pesquisa para a Universidade de Columbia , Wang afirmou que o método permite remover a maioria das partes desnecessárias de um clipe de áudio, como ruído de fundo, e eliminar a distorção. Isso também torna o tamanho das impressões pequeno o suficiente para levar meros milissegundos para identificar uma música em seu vasto banco de dados.

Impacto do Shazam

Além de ser útil para os ouvintes comuns que ouvem uma música de que gostam, os aplicativos de identificação de música também ajudam a moldar o mundo da música.

As estações de rádio e serviços de streaming geralmente usam os dados sobre o que as pessoas estão fazendo Shazam mais para descobrir quais faixas estão sendo ouvidas pelo público. Isso é útil porque indica o caráter cativante e a popularidade potencial de uma música, independentemente do artista. Ao identificar uma música com o aplicativo, você verá imediatamente quantas pessoas também tentaram identificá-la.

Identificação de música Soundhound
Soundhound

Desde a ascensão do Shazam, um punhado de concorrentes também apareceu. O Soundhound afirma ser capaz de identificar uma música simplesmente por você cantá-la ou cantarolar, com resultados mistos. Também há um identificador de música integrado com aplicativos de voz, como o Google Assistant, que funcionam de forma muito semelhante ao sistema do Shazam.

Recomendado:  Microtransações em jogos AAA chegaram para ficar (mas ainda são terríveis)