O MIT resolveu uma equação diferencial centenária para quebrar o gargalo computacional da IA ​​’líquida’

No ano passado, o MIT desenvolveu um algoritmo AI/ML que pode aprender e se adaptar a novas informações durante o trabalho, não apenas durante sua fase inicial de treinamento. Esses redes neurais “líquidas” (no Bruce Lee significado) literalmente jogam xadrez 4D – seus modelos requerem Dados de série temporal para operar – tornando-os ideais para uso em tarefas sensíveis ao tempo, como monitoramento de marca-passo, previsão do tempo, previsão de investimentos ou navegação de veículos autônomos. Mas o problema é que a taxa de transferência de dados se tornou um gargalo e o dimensionamento desses sistemas tornou-se computacionalmente proibitivo.

Na terça-feira, pesquisadores do MIT anunciaram que haviam desenvolvido uma solução para essa restrição, não expandindo o pipeline de dados, mas resolvendo uma equação diferencial que tem intrigado os matemáticos desde 1907. Especificamente, a equipe resolveu, “a equação diferencial por trás da interação de dois neurônios em sinapses… para desbloquear um novo tipo de algoritmos de inteligência artificial rápidos e eficientes.

“Os novos modelos de aprendizado de máquina que chamamos de ‘CfC’ [closed-form Continuous-time] substituir a equação diferencial que define a computação do neurônio por uma aproximação de forma fechada, preservando as belas propriedades das redes líquidas sem a necessidade de integração numérica”, disse Daniela Rus, professora do MIT e diretora do CSAIL. “Os modelos CfC são causais, compactos, explicáveis ​​e eficientes no treinamento e na previsão. Eles abrem caminho para um aprendizado de máquina confiável para aplicações críticas de segurança. »

Portanto, para aqueles de nós sem um PhD em matemática realmente difícil, as equações diferenciais são fórmulas que podem descrever o estado de um sistema em vários pontos ou etapas discretas ao longo do caminho. Por exemplo, se você tiver um braço de robô se movendo do ponto A ao ponto B, poderá usar uma equação diferencial para descobrir onde ele está entre os dois pontos no espaço em qualquer etapa do processo. No entanto, resolver essas equações para cada etapa rapidamente se torna computacionalmente caro. A solução de “forma fechada” do MIT contorna esse problema ao modelar funcionalmente a descrição completa de um sistema em uma única etapa computacional. Como explica a equipe do MIT:

Imagine se você tiver uma rede neural de ponta a ponta que receba entradas de direção de uma câmera montada em um carro. A rede é treinada para gerar saídas, como o ângulo de direção do carro. Em 2020, a equipe resolveu esse problema usando redes neurais líquidas de 19 nós, de modo que 19 neurônios mais um pequeno módulo de percepção pudessem dirigir um carro. Uma equação diferencial descreve cada nó desse sistema. Com a solução de forma fechada, se você recolocá-la dentro desta rede, ela lhe dará o comportamento exato, pois é uma boa aproximação da dinâmica real do sistema. Eles podem, assim, resolver o problema com um número ainda menor de neurônios, o que significa que seria mais rápido e menos dispendioso computacionalmente.

Ao resolver essa equação no nível dos neurônios, a equipe espera poder construir modelos do cérebro humano que meçam milhões de conexões neurais, o que hoje não é possível. A equipe também observa que este modelo CfC pode ser capaz de pegar o treinamento visual que aprendeu em um ambiente e aplicá-lo a uma situação totalmente nova sem trabalho adicional, conhecido como generalização fora da distribuição. Isso não é algo que os modelos da geração atual possam realmente fazer e provaria ser um passo importante em direção aos sistemas generalizados de IA de amanhã.