Codec de áudio com inteligência artificial da Meta promete compressão de 10x em MP3

Prolongar / Uma representação pictórica de dados em uma onda de áudio.

Meta AI

Na semana passada, Meta anúncio um método de compressão de áudio com inteligência artificial chamado “EnCodec” que aparentemente pode comprimir áudio 10 vezes menor do que o Formato MP3 a 64kbps sem perda de qualidade. Meta diz que a técnica pode melhorar significativamente a qualidade do som da fala em conexões de baixa largura de banda, como chamadas telefônicas em áreas com serviço irregular. A técnica também funciona para a música.

A Meta lançou a tecnologia em 25 de outubro em um artigo intitulado “Compressão de áudio neural de alta fidelidade“, escrito pelos pesquisadores da Meta AI Alexandre Defoss, Jade Copet, Gabriel Synnaeve e Yossi Adi. Meta também resumiu pesquisas sobre seu blog dedicado ao EnCodec.

A Meta afirma que seu novo codificador/decodificador de áudio pode compactar áudio 10 vezes menor que o MP3.
Prolongar / A Meta afirma que seu novo codificador/decodificador de áudio pode compactar áudio 10 vezes menor que o MP3.

Meta AI

Meta descreve seu método como um sistema de três partes treinado para compactar áudio para um tamanho de destino desejado. Primeiro, o codificador transforma os dados não compactados em uma representação de “espaço latente” de taxa de quadros mais baixa. O “quantizador” então comprime a representação para o tamanho do alvo enquanto mantém o controle das informações mais importantes que serão usadas posteriormente para reconstruir o sinal original. (Esse sinal compactado é o que é enviado por uma rede ou gravado em disco.) Finalmente, o decodificador transforma os dados compactados em áudio em tempo real usando uma rede neural em um único processador.

Um diagrama de blocos que ilustra como funciona a compactação EnCodec do Meta.
Prolongar / Um diagrama de blocos que ilustra como funciona a compactação EnCodec do Meta.

Meta AI

O uso de Meta discriminadores é essencial para criar um método para compactar o áudio o máximo possível sem perder os principais elementos de um sinal que o tornam distinto e reconhecível:

“A chave para a compressão com perdas é identificar mudanças que não serão perceptíveis para humanos, pois a reconstrução perfeita é impossível em baixas taxas de bits. Para fazer isso, usamos discriminadores para melhorar a qualidade perceptiva das amostras geradas. jogo e-mouse onde o trabalho do discriminador é diferenciar entre as amostras reais e as amostras reconstruídas. O modelo de compressão tenta gerar amostras para enganar os discriminadores em empurrar as amostras reconstruídas para que sejam mais perceptivelmente semelhantes às amostras originais.

Deve-se notar que o uso de uma rede neural para compressão e descompressão de áudio é longe de ser novo– especialmente para compressão de voz – mas os pesquisadores da Meta afirmam que são o primeiro grupo a aplicar a tecnologia ao áudio estéreo de 48kHz (um pouco melhor que a taxa de amostragem de 44,1kHz do CD), o que é típico para arquivos de música distribuídos pela Internet.

Quanto aos aplicativos, Meta diz que essa “hipercompressão de áudio” com inteligência artificial pode suportar “chamadas mais rápidas e de maior qualidade” em condições de rede ruins. E, é claro, sendo Meta, os pesquisadores também mencionam as implicações do metaverso do EnCodec, dizendo que a tecnologia poderia fornecer “experiências ricas do metaverso sem exigir grandes melhorias na largura de banda”.

Além disso, podemos um dia obter arquivos de áudio musicais muito pequenos. Por enquanto, a nova tecnologia da Meta permanece em fase de pesquisa, mas aponta para um futuro em que áudio de alta qualidade pode usar menos largura de banda, o que seria uma ótima notícia para provedores de banda larga móvel com redes sobrecarregadas da mídia de streaming.