Alexa está sempre ouvindo, mas não gravando continuamente. Ele não envia nada para os servidores em nuvem até ouvir você dizer a palavra de ativação (Alexa, Echo ou Computer). Mas ouvir palavras de despertar é mais difícil do que você imagina.
O hardware Echo não é tão inteligente. Sem a Internet, qualquer pedido ou pergunta que você fizer irá falhar. Isso ocorre porque seus comandos são enviados para a nuvem para interpretação e decisões. A Amazon não quer que todas as conversas que você tem na frente de um alto-falante inteligente sejam gravadas, mas apenas os comandos que você dá ao alto-falante inteligente. Por esse motivo, a empresa emprega uma palavra de alerta para chamar a atenção do palestrante inteligente. Para conseguir isso, a Amazon usa uma combinação de microfones ajustados, um buffer de memória curto e treinamento de rede neural.
Índice
Microfones afinados identificam sua voz
Os alto-falantes do assistente de voz, como o Echo e o Echo Dot, costumam ter vários microfones integrados. O Echo Dot, por exemplo, tem sete. Esse conjunto dá aos dispositivos várias habilidades, desde ouvir comandos falados à distância até separar o ruído de fundo das vozes.
O último é especialmente útil para detecção de wake word. Usando seus vários microfones, o Echo pode apontar sua localização em relação a onde está sentado e ouvir nessa direção enquanto ignora o resto da sala.
Você vê isso em ação sempre que usa a palavra de ativação. Fique ao lado de um eco ou ponto de eco e diga a palavra de despertar. Observe que o anel acende em azul escuro e, em seguida, em um azul mais claro circulando e “apontando” para você. Agora, dê vários passos para o lado e diga a palavra de ativação mais uma vez. Observe que as luzes azuis o seguem.
Saber onde você está ajuda o dispositivo a se concentrar melhor em você e a evitar ruídos vindos de outros lugares .
A memória curta impede que o alto-falante segure muito
Os dispositivos Echo têm muito espaço de armazenamento, mas não usam muito. De acordo com Rohit Prasad, vice-presidente da Amazon e cientista-chefe da Alexa Artificial Intelligence, um Echo só pode armazenar fisicamente alguns segundos de áudio .
Ao reduzir sua capacidade, a Amazon não só oferece mais privacidade (é um lugar a menos em que sua voz é armazenada), mas também evita que o Echo ouça conversas inteiras, limitando seu foco a encontrar a palavra de ativação.
Imagine que você tenha uma fita cassete de três segundos e um gravador. Suponha que, depois de chegar ao fim, a fita volte ao início indefinidamente. Se você começar a gravar uma conversa, tudo o que você disser quatro segundos atrás será apagado e imediatamente gravado. Isso é o que um Amazon Echo faz.
Ele grava continuamente, mas limpa tudo que acabou de gravar ao mesmo tempo. Esse curto período de atenção significa que tudo o que ela pode ouvir é a palavra “Alexa” e nada mais. Três segundos, porém, é tempo suficiente para que essa palavra seja registrada, examinada e posta em prática de maneira apropriada.
O treinamento da rede neural ajuda na correspondência de padrões
Por fim, a Amazon depende do treinamento da rede neural para ensinar ao Echo como combinar padrões. Muito parecido com outras formas de aprendizado de máquina , a Amazon treina seus algoritmos alimentando-os instância após instância da palavra Alexa (ou Computador, ou Eco, dependendo de qual wake word a empresa está treinando).
RELACIONADOS: O que são algoritmos e por que eles tornam as pessoas desconfortáveis?
A ideia é abranger todas as inflexões e sotaques, mas também o contexto. A Amazon quer que o Echo reconheça a diferença quando você está falando com ele, quando está falando sobre ele ou, talvez, quando está falando com uma pessoa chamada Alexa. Os microfones direcionais também auxiliam nesse objetivo.
Com cada palavra que o Echo ouve, ele executa o áudio por meio de camadas de algoritmos. Cada camada é projetada para descartar falsos positivos, procurando por sons semelhantes ou pistas de contexto. Se uma verificação de camada for aprovada, a palavra vai para a próxima. Finalmente, quando o dispositivo local decide que ouviu a palavra de ativação, ele começa a gravar e passar o áudio para os servidores em nuvem da Amazon. A Amazon emprega quatro algoritmos: um para cada wake word (Alexa, Computer, Echo) e um para Alexa Guard, que trata sons específicos, como vidro se estilhaçando, como uma wake word.
Mas mesmo quando ocorre uma correspondência, a Amazon ainda executa verificações mais complicadas. Você notou que quando alguém fala a palavra Alexa em um programa de TV ou comercial, geralmente não obtém uma resposta do seu Echo? Isso porque a Amazon também faz uma verificação de nuvem.
As verificações de nuvem excluem alguns falsos positivos
Quando as empresas fazem comerciais com Alexa, podem enviar o áudio para a Amazon . A empresa executa o áudio por meio de algoritmos de correspondência de padrões semelhantes usados para identificar a palavra de ativação. Depois que a instância exata estiver totalmente catalogada, ela será adicionada a um banco de dados.
Como parte do processo de acesso à nuvem, seu Echo inclui informações sobre a palavra de ativação que ouviu e verifica esse banco de dados. Sempre que encontra uma correspondência, a Amazon instrui seu Echo a ignorar a palavra de ativação, desligar e descartar qualquer áudio gravado.
Além disso, a Amazon verifica se há instâncias da palavra de ativação falada simultaneamente. Nem toda empresa envia áudio para a Amazon, então a empresa surgiu com uma nova solução de backup. Depois de verificar se há uma correspondência no banco de dados, a empresa compara a impressão da palavra de ativação com qualquer outra instância que chegue ao mesmo tempo. É improvável que duas pessoas que digam Alexa simultaneamente soem exatamente iguais, então, se houver uma correspondência, a Amazon sabe que provavelmente é um comercial ou programa de TV e ignora o pedido.
Apesar de todas as verificações, ainda ocorrem falsos positivos. Você pode ouvir o que seu Echo gravou no hub de privacidade da Amazon e provavelmente encontrará pelo menos um falso positivo no grupo. Mas a tecnologia está sendo aprimorada continuamente e, eventualmente, a Amazon gostaria que ela funcionasse sem qualquer wake word.