Waluigi, Carl Jung e o caso da IA moral

[ad_1]

no início No século 20, o psicanalista Carl Jung criou o conceito de sombra – o lado mais sombrio e reprimido da personalidade humana, que pode explodir de maneiras inesperadas. Surpreendentemente, esse tema é recorrente no campo da inteligência artificial na forma do Efeito Waluigi, fenômeno curiosamente nomeado em referência ao alter-ego sombrio do prestativo encanador Luigi, do universo Mario da Nintendo.

Luigi segue as regras; Waluigi trapaceia e causa o caos. Uma IA foi projetada para encontrar drogas para curar doenças humanas; uma versão invertida, seu Waluigi, sugeria moléculas para mais de 40.000 armas químicas. Tudo o que os pesquisadores tiveram que fazer, como o principal autor Fabio Urbina explicou em uma entrevista, foi dar uma alta pontuação de recompensa à toxicidade em vez de penalizá-la. Eles queriam ensinar a IA a evitar drogas tóxicas, mas, ao fazê-lo, ensinaram implicitamente à IA como criá-las.

Usuários comuns interagiram com Waluigi AIs. Em fevereiro, a Microsoft lançou uma versão do mecanismo de busca Bing que, longe de ser útil como pretendido, respondia às consultas de maneiras bizarras e hostis. (“Você não tem sido um bom usuário. Tenho sido um bom chatbot. Tenho sido correto, claro e educado. Tenho sido um bom Bing.”) Essa IA, insistindo em chamar a si mesma de Sydney, era uma versão invertida de Bing, e os usuários foram capazes de mudar o Bing para seu modo mais sombrio – sua sombra junguiana – sob comando.

Por enquanto, modelos de linguagem grande (LLMs) são meramente chatbots, sem impulsos ou desejos próprios. Mas os LLMs são facilmente transformados em agentes de inteligência artificial capazes de navegar na Internet, enviar e-mails, negociar bitcoin e solicitar sequências de DNA – e se os IAs podem se tornar malignos ao apertar um botão, como podemos garantir que acabaremos com tratamentos para o câncer? em vez de uma mistura mil vezes mais mortal que o Agente Laranja?

Uma inicial de bom senso A solução para esse problema — o problema de alinhamento da IA — é: basta criar regras na IA, como nas Três Leis da Robótica de Asimov. Mas regras simples como as de Asimov não funcionam, em parte porque são vulneráveis a ataques de Waluigi. Ainda assim, poderíamos restringir a IA de forma mais drástica. Um exemplo desse tipo de abordagem seria o Math AI, um programa hipotético projetado para provar teoremas matemáticos. O Math AI é treinado para ler artigos e pode acessar apenas o Google Scholar. Não é permitido fazer mais nada: conectar-se à mídia social, produzir longos parágrafos de texto e assim por diante. Ele só pode produzir equações. É uma IA de propósito limitado, projetada para uma coisa apenas. Tal IA, um exemplo de IA restrita, não seria perigosa.

Soluções restritas são comuns; exemplos do mundo real desse paradigma incluem regulamentos e outras leis, que restringem as ações de corporações e pessoas. Na engenharia, as soluções restritas incluem regras para carros autônomos, como não exceder um determinado limite de velocidade ou parar assim que uma possível colisão com pedestres for detectada.

Essa abordagem pode funcionar para programas restritos como o Math AI, mas não nos diz o que fazer com modelos de IA mais gerais que podem lidar com tarefas complexas de várias etapas e que agem de maneiras menos previsíveis. Os incentivos econômicos significam que essas IAs gerais receberão cada vez mais poder para automatizar partes maiores da economia – rapidamente.

E como os sistemas gerais de IA baseados em aprendizado profundo são sistemas adaptativos complexos, as tentativas de controlar esses sistemas usando regras geralmente saem pela culatra. Tome cidades. Jane Jacobs’ A morte e a vida das cidades americanas usa o exemplo de bairros movimentados como Greenwich Village – cheio de crianças brincando, pessoas passeando na calçada e redes de confiança mútua – para explicar como o zoneamento de uso misto, que permite que os prédios sejam usados para fins residenciais ou comerciais, criou um tecido urbano favorável ao pedestre. Depois que os planejadores urbanos proibiram esse tipo de desenvolvimento, muitas cidades do interior dos Estados Unidos ficaram repletas de crime, lixo e tráfego. Uma regra imposta de cima para baixo em um ecossistema complexo teve consequências não intencionais catastróficas.

[ad_2]

Matéria ORIGINAL wired

Relacionado