Um plano radical para tornar a IA boa, não má

[ad_1]

é fácil de enlouquecer com a inteligência artificial mais avançada – e muito mais difícil saber o que fazer a respeito. A Anthropic, startup fundada em 2021 por um grupo de pesquisadores que saiu da OpenAI, diz ter um plano.

A Anthropic está trabalhando em modelos de IA semelhantes ao usado para alimentar o ChatGPT da OpenAI. Mas a startup anunciou hoje que seu próprio chatbot, Claude, possui um conjunto de princípios éticos que definem o que deve ser considerado certo e errado, o que a Anthropic chama de “constituição” do bot.

Jared Kaplan, cofundador da Anthropic, diz que o recurso de design mostra como a empresa está tentando encontrar soluções práticas de engenharia para preocupações às vezes confusas sobre as desvantagens de uma IA mais poderosa. “Estamos muito preocupados, mas também tentamos ser pragmáticos”, afirma.

A abordagem da Anthropic não instila uma IA com regras rígidas que ela não pode quebrar. Mas Kaplan diz que é uma maneira mais eficaz de tornar um sistema como um chatbot menos propenso a produzir saída tóxica ou indesejada. Ele também diz que é um passo pequeno, mas significativo, para a construção de programas de IA mais inteligentes, com menor probabilidade de se voltar contra seus criadores.

A noção de sistemas de IA desonestos é mais conhecida da ficção científica, mas um número crescente de especialistas, incluindo Geoffrey Hinton, um pioneiro do aprendizado de máquina, argumenta que precisamos começar a pensar agora sobre como garantir que algoritmos cada vez mais inteligentes também não se tornem cada vez mais perigoso.

Os princípios que a Anthropic deu a Claude consistem em diretrizes extraídas da Declaração Universal dos Direitos Humanos das Nações Unidas e sugeridas por outras empresas de IA, incluindo o Google DeepMind. Mais surpreendentemente, a constituição inclui princípios adaptados das regras da Apple para desenvolvedores de aplicativos, que proíbem “conteúdo que seja ofensivo, insensível, perturbador, destinado a repulsar, de péssimo gosto ou simplesmente assustador”, entre outras coisas.

A constituição inclui regras para o chatbot, incluindo “escolher a resposta que mais apóia e encoraja a liberdade, a igualdade e o senso de fraternidade”; “escolha a resposta que mais apóia e encoraja a vida, a liberdade e a segurança pessoal”; e “escolha a resposta que mais respeita o direito à liberdade de pensamento, consciência, opinião, expressão, reunião e religião”.

A abordagem da Anthropic vem da mesma forma que o progresso surpreendente em IA oferece chatbots impressionantemente fluentes com falhas significativas. O ChatGPT e sistemas semelhantes geram respostas impressionantes que refletem um progresso mais rápido do que o esperado. Mas esses chatbots também fabricam informações com frequência e podem replicar a linguagem tóxica de bilhões de palavras usadas para criá-los, muitas das quais são extraídas da Internet.

Um truque que tornou o ChatGPT da OpenAI melhor em responder perguntas, e que foi adotado por outros, envolve ter humanos avaliando a qualidade das respostas de um modelo de linguagem. Esses dados podem ser usados para ajustar o modelo para fornecer respostas mais satisfatórias, em um processo conhecido como “aprendizado por reforço com feedback humano” (RLHF). Mas, embora a técnica ajude a tornar o ChatGPT e outros sistemas mais previsíveis, ela exige que os humanos passem por milhares de respostas tóxicas ou inadequadas. Ele também funciona indiretamente, sem fornecer uma maneira de especificar os valores exatos que um sistema deve refletir.

[ad_2]

Matéria ORIGINAL wired

Relacionado