Metapesquisadores criam IA que domina a diplomacia, enganando jogadores humanos

Prolongar / Uma captura de tela de um jogo online de Diplomaciaincluindo um diálogo de bate-papo em execução, fornecido por um pesquisador do Cicero.

Terça-feira, Meta AI anúncio o desenvolvimento do Cicero, que afirma ser a primeira IA a atingir desempenho de nível humano em jogos de tabuleiro estratégicos Diplomacia. Esta é uma conquista notável, pois o jogo requer profundas habilidades de negociação interpessoal, o que implica que Cícero alcançou algum domínio da linguagem necessária para vencer o jogo.

Mesmo antes do Deep Blue vencer Garry Kasparov no xadrez em 1997jogos de tabuleiro eram um medida útil do sucesso da IA. Em 2015, outra barreira caiu quando a AlphaGo derrotado Vá Mestre Lee Sedol. Ambos os jogos seguem um conjunto relativamente claro de regras analíticas (embora as regras de Go sejam geralmente simplificadas para IA de computador).

Mas com Diplomacia, muito da jogabilidade envolve habilidades sociais. Os jogadores devem ter empatia, usar linguagem natural e construir relacionamentos para vencer, uma tarefa difícil para um jogador de computador. Com isso em mente, Meta perguntou: “Podemos criar agentes mais eficientes e flexíveis que possam usar a linguagem para negociar, persuadir e trabalhar com pessoas para atingir objetivos estratégicos semelhantes aos humanos?”

Segundo Meta, a resposta é sim. Cícero aprendeu suas habilidades jogando uma versão online de Diplomacia sobre webDiplomatie.net. Com o tempo, ele se tornou um mestre do jogo, alcançando “mais que o dobro da pontuação média” dos jogadores humanos e classificando-se entre os 10% melhores das pessoas que jogaram mais de um jogo.

Para criar o Cicero, a Meta reuniu modelos de IA para raciocínio estratégico (semelhante ao AlphaGo) e processamento de linguagem natural (semelhante ao GPT-3) e os consolidou em um único agente. Durante cada partida, Cícero examina o estado do tabuleiro e o histórico do chat e prevê como os outros jogadores irão agir. Ele formula um plano que executa por meio de um modelo de linguagem que pode gerar um diálogo semelhante ao humano, permitindo que ele coordene com outros jogadores.

diplomaciafornecido pela Meta.” src=”https://cdn.arstechnica.net/wp-content/uploads/2022/11/Visual_UnderTheHood-640×907.jpg” width=”640″ height=”907″ srcset=”https: //cdn.arstechnica.net/wp-content/uploads/2022/11/Visual_UnderTheHood-1280×1813.jpg 2x”/>
Prolongar / Um diagrama de blocos de Cícero, o Diplomacia-gaming bot, fornecido pela Meta.

Meta AI

Meta chama as habilidades de linguagem natural de Cícero de “padrão de diálogo controlável”, que é central para a personalidade de Cícero. Como o GPT-3, Cicero extrai de um grande corpus de texto da Internet extraído da Web. “Para construir um modelo de diálogo controlável, começamos com um parâmetro de 2,7 bilhões BARTmodelo de linguagem semelhante pré-treinado em texto proveniente da Internet e refinado em mais de 40.000 jogos humanos em webDiplomacy.net,” escrita Meta.

O modelo resultante dominou as complexidades de um jogo complexo. “Cícero pode deduzir, por exemplo, que mais tarde no jogo ele vai precisar do apoio de um determinado jogador”, explica Meta, “e então traçar estratégias para bajular essa pessoa e até mesmo reconhecer os riscos e as oportunidades que aquele jogador vê de sua perspectiva particular”.

A pesquisa de Meta sobre Cícero apareceu na revista Science sob o título, “Jogando no nível humano no jogo da diplomacia, combinando modelos linguísticos com raciocínio estratégico.”

Quanto a aplicações mais amplas, Meta sugere que sua pesquisa Cicero poderia “afrouxar as barreiras de comunicação” entre humanos e IA, como manter uma conversa de longo prazo para ensinar uma nova habilidade a alguém. Ou pode alimentar um videogame em que os NPCs podem falar como humanos, entender as motivações dos jogadores e se adaptar ao longo do caminho.

Ao mesmo tempo, essa tecnologia pode ser usada para manipular humanos, passando-se por pessoas e enganando-as de maneiras potencialmente perigosas, dependendo do contexto. Nesse sentido, Meta espera que outros pesquisadores possam construir seu código “responsavelmente”, e afirma ter tomado medidas para detectar e remover “mensagens tóxicas neste novo domínio”, que provavelmente se referem ao diálogo que Cícero aprendeu com textos da Internet. ele ingeriu—sempre um risco para grandes modelos de linguagem.

Meta forneceu um site detalhado para explicar como o Cícero funciona e também abriu o código do Cícero no GitHub. Conectados Diplomacia os fãs – e talvez até o resto de nós – podem ter que ter cuidado.