Quase todo mundo já ouviu falar de grandes modelos de linguagem, ou LLMs, desde que a IA generativa entrou em nosso léxico diário por meio de seus incríveis recursos de geração de texto e imagem e de sua promessa como uma revolução na forma como as empresas lidam com as principais funções de negócios. Agora, mais do que nunca, a ideia de falar com a IA através de uma interface de chat ou fazer com que ela execute tarefas específicas para você é uma realidade tangível. Enormes avanços estão ocorrendo para adotar esta tecnologia para impactar positivamente as experiências diárias como indivíduos e consumidores.
Mas e no mundo da voz? Tanta atenção tem sido dada aos LLMs como um catalisador para recursos aprimorados de chat generativo de IA que poucos estão falando sobre como eles podem ser aplicados a experiências de conversação baseadas em voz. O contact center moderno é atualmente dominado por experiências de conversação rígidas (sim, Resposta de Voz Interativa ou IVR ainda é a norma). Entre no mundo dos Grandes Modelos de Fala, ou LSMs. Sim, os LLMs têm um primo mais vocal com benefícios e possibilidades que você pode esperar da IA generativa, mas desta vez os clientes podem interagir com o assistente por telefone.
Nos últimos meses, as equipes de desenvolvimento do IBM watsonx e da IBM Research têm trabalhado arduamente no desenvolvimento de um novo e moderno Large Speech Model (LSM). Com base na tecnologia de transformadores, os LSMs utilizam grandes quantidades de dados de treinamento e parâmetros de modelo para fornecer precisão no reconhecimento de fala. Desenvolvido especificamente para casos de uso de atendimento ao cliente, como assistentes telefônicos de autoatendimento e transcrição de chamadas em tempo real, nosso LSM oferece transcrições altamente avançadas prontas para uso para criar uma experiência perfeita para o cliente.
Estamos muito entusiasmados em anunciar a implementação de novos LSMs em inglês e japonês, agora disponíveis exclusivamente em versão beta fechada para clientes de telefone Watson Speech to Text e watsonx Assistant.
Podemos continuar falando sobre como esses modelos são excelentes, mas o que realmente importa é o desempenho. Com base em benchmarking interno, o novo LSM é nosso modelo de fala mais preciso até agora, superando o modelo Whisper da OpenAI em casos de uso abreviados em inglês. Comparamos o desempenho pronto para uso de nosso LSM em inglês com o modelo Whisper da OpenAI em cinco casos reais de uso de clientes no telefone e descobrimos que a taxa de erro de palavras (WER) do IBM LSM é 42% menor do que a de o modelo Whisper (ver nota de rodapé (1) para metodologia de avaliação).
O LSM da IBM também é 5x menor que o modelo Whisper (5x menos parâmetros), o que significa que processa áudio 10x mais rápido quando executado no mesmo hardware. Com o streaming, o LSM terminará o processamento quando o áudio terminar; O Whisper, por outro lado, processa áudio no modo de bloco (por exemplo, intervalos de 30 segundos). Vejamos um exemplo – ao processar um arquivo de áudio com menos de 30 segundos, digamos 12 segundos, o Whisper preenche o silêncio, mas ainda leva 30 segundos completos para ser processado; o IBM LSM será processado após a conclusão dos 12 segundos de áudio.
Esses testes indicam que nosso LSM é altamente preciso na forma abreviada. Mas há mais. O LSM também mostrou desempenho comparável à precisão do Whisper em casos de uso de formato longo (como análise de chamadas e resumo de chamadas), conforme mostrado no gráfico abaixo.
Como você pode começar com esses modelos?
Inscreva-se em nosso programa de usuário beta fechado e nossa equipe de gerenciamento de produtos entrará em contato com você para agendar uma ligação. Como o IBM LSM está em beta fechado, alguns recursos e funcionalidades ainda estão em desenvolvimento2.
Inscreva-se hoje para explorar LSMs
1 Metodologia para benchmarking:
Modelo Whisper para comparação: medium.en Idioma avaliado: Inglês dos EUA Métrica usada para comparação: Taxa de erros de palavras, comumente conhecida como WER, é definida como o número de erros de edição (substituições, exclusões e inserções) dividido pelo número de palavras na referência/transcrição humana. Antes da pontuação, todas as transcrições da máquina foram normalizadas usando o normalizador de sussurro para eliminar quaisquer diferenças de formatação que pudessem causar discrepâncias no WER.
2 As declarações da IBM relativas aos seus planos, orientações e intenções estão sujeitas a alterações ou retiradas sem aviso prévio, a critério exclusivo da IBM. As informações mencionadas sobre possíveis produtos futuros não constituem um compromisso, promessa ou obrigação legal de entrega de qualquer material, código ou funcionalidade. O desenvolvimento, lançamento e timing de quaisquer recursos ou funcionalidades futuras permanecem a critério exclusivo da IBM.