Você está indo para o seu drive-thru favorito para comprar batatas fritas e um cheeseburger. É um pedido simples e quando você chega percebe que não há muita fila. O que poderia dar errado? Bastante.
O restaurante fica perto de uma rodovia movimentada, com barulho de trânsito e aviões voando baixo quando se aproximam do aeroporto próximo. Está ventando. O som está tocando no carro atrás de você e o cliente na pista ao lado está tentando fazer o pedido ao mesmo tempo que você. A cacofonia desafiaria até mesmo o mais experiente tomador de ordens humano.
Com o IBM® watsonx™ Orders, criamos um agente de voz baseado em IA para receber pedidos drive-thru sem intervenção humana. O produto utiliza tecnologia de ponta para isolar e compreender a voz humana em condições ruidosas, ao mesmo tempo que oferece suporte a uma conversa natural e fluida entre o cliente que faz o pedido e o agente de voz.
Watsonx Orders entende a fala e entrega pedidos
O IBM watsonx Orders inicia o processo quando detecta um veículo chegando ao posto do alto-falante. Ele cumprimenta os clientes e pergunta o que eles gostariam de pedir. Em seguida, ele escuta para processar o áudio recebido e isolar a voz humana. A partir disso, ele detecta o pedido e os itens e depois mostra ao cliente o que ouviu no cardápio digital. Se o cliente disser que está tudo certo, o watsonx Orders envia o pedido para o ponto de venda e para a cozinha. Por fim, a cozinha prepara a comida. O processo completo de pedido é mostrado na figura abaixo:
Existem três partes para entender o pedido do cliente. A primeira parte é isolar a voz humana e ignorar sons ambientais conflitantes. A segunda parte é então compreender a fala, incluindo a complexidade de sotaques, coloquialismos, emoções e distorções. Finalmente, a terceira parte é traduzir os dados de fala em uma ação que reflita a intenção do cliente.
Isolando a voz humana
Quando você liga para seu banco ou empresa de serviços públicos, um chatbot de agente de voz provavelmente atende primeiro a chamada para perguntar por que você está ligando. Esse chatbot espera um áudio relativamente silencioso de um telefone com pouco ou nenhum ruído de fundo.
No drive-thru sempre haverá ruído de fundo. Não importa quão bom seja o hardware de áudio, as vozes humanas podem ser abafadas por ruídos altos, como a buzina de um trem passando.
Como o watsonx Orders captura áudio em tempo real, ele usa técnicas de aprendizado de máquina para realizar ruído digital e cancelamento de eco. Ele ignora ruídos de vento, chuva, tráfego rodoviário e aeroportos. Outros desafios de ruído incluem ruído de fundo inesperado e conversa cruzada, em que as pessoas falam em segundo plano durante uma ordem. O Watsonx Orders utiliza técnicas avançadas para minimizar essas interrupções.
Compreendendo a fala
A maioria dos chatbots de voz começou como chatbots de texto. Os agentes de voz tradicionais primeiro transformam as palavras faladas em texto escrito e, em seguida, analisam a frase escrita para descobrir o que o locutor deseja.
Isso é computacionalmente lento e um desperdício. Em vez de primeiro tentar transcrever sons em palavras e frases, o watsonx Orders transforma a fala em fonemas (as menores unidades de som na fala que transmitem um significado distinto). Por exemplo, quando você diz “agitar”, o watsonx Orders analisa essa palavra em “sh”, “ay” e “k” forte. A conversão da fala em fonemas, em vez de texto completo em inglês, também aumenta a precisão em diferentes sotaques e oferece suporte ativo ao fluxo de conversação em tempo real, reduzindo a latência intra-diálogo.
Traduzindo compreensão em ação
Em seguida, watsonx Orders identifica a intenção, como “Eu quero” ou “cancelar isso”. Em seguida, identifica os itens que pertencem aos comandos como “cheeseburger” ou “torta de maçã”.
Existem várias técnicas de aprendizado de máquina para reconhecimento de intenções. A técnica mais recente usa modelos básicos e de linguagem ampla, que teoricamente podem compreender qualquer pergunta e responder com uma resposta apropriada. Isso é muito lento e computacionalmente caro para casos de uso restritos por hardware. Embora possa ser impressionante para um agente de voz do drive-thru responder: “Por que o céu é azul?”, isso retardaria o drive-thru, frustrando as pessoas na fila e diminuindo a receita.
O Watsonx Orders usa um modelo altamente específico que é otimizado para entender as centenas de milhões de maneiras pelas quais você pode pedir um cheeseburger, como “Sem cebola, pouco molho especial ou tomates extras”. O modelo também permite que os clientes modifiquem o cardápio no meio do pedido: “Na verdade, não há tomate naquele hambúrguer”.
Na produção, o watsonx Orders pode concluir mais de 90% dos pedidos sozinho, sem qualquer intervenção humana. É importante notar que outros fornecedores neste espaço usam contact centers com operadores humanos para assumir o controle quando o agente de IA fica preso e consideram a interação como “automatizada”. Pelos nossos padrões IBM watsonx Orders, “automatizado” significa lidar com um pedido de ponta a ponta, sem envolvimento humano.
A implementação no mundo real gera lucros
Durante os horários de pico, o Watsonx Orders pode atender mais de 150 carros por hora em um restaurante de pista dupla, o que é melhor do que a maioria dos atendentes de pedidos humanos. Mais carros por hora significam mais receita e lucro, por isso nossas abordagens de engenharia e modelagem são constantemente otimizadas para essa métrica.
O Watsonx Orders recebeu 60 milhões de pedidos do mundo real em dezenas de restaurantes, mesmo com ruídos desafiadores, conversas cruzadas e complexidade de pedidos. Construímos a plataforma para se adaptar facilmente a novos menus, pilhas de tecnologia de restaurantes e sistemas centralizados de gerenciamento de menus, na esperança de podermos trabalhar com todas as cadeias de restaurantes de serviço rápido em todo o mundo.
Mantenha seu restaurante funcionando perfeitamente com IA que lida com os pedidos mais difíceis
Esse artigo foi útil?
SimNão