banner
Centro de notícias
Empresa abrangente

Revoltas de dados eclodem contra IA

Jun 03, 2023

Anúncio

Apoiado por

Fartos de empresas de IA consumirem conteúdo online sem consentimento, escritores de fanfics, atores, empresas de redes sociais e organizações de notícias estão entre os que se rebelam.

Por Sheera Frenkel e Stuart A. Thompson

Sheera Frenkel e Stuart Thompson relatam sobre desinformação online e dados digitais.

Por mais de 20 anos, Kit Loffstadt escreveu fanfics explorando universos alternativos para heróis de “Star Wars” e vilões de “Buffy, a Caçadora de Vampiros”, compartilhando suas histórias online gratuitamente.

Mas em maio, Loffstadt parou de publicar suas criações depois de saber que uma empresa de dados havia copiado suas histórias e as inserido na tecnologia de inteligência artificial subjacente ao ChatGPT, o chatbot viral. Consternada, ela escondeu seus escritos atrás de uma conta bloqueada.

Loffstadt também ajudou a organizar um ato de rebelião no mês passado contra os sistemas de IA. Junto com dezenas de outros escritores de fan fiction, ela publicou uma enxurrada de histórias irreverentes online para sobrecarregar e confundir os serviços de coleta de dados que alimentam o trabalho dos escritores na tecnologia de IA.

“Cada um de nós tem que fazer o que puder para mostrar a eles que o resultado de nossa criatividade não é permitir que as máquinas colham como quiserem”, disse Loffstadt, uma dubladora de 42 anos de South Yorkshire, na Grã-Bretanha.

Os escritores de fanfics são apenas um grupo que agora encena revoltas contra os sistemas de IA, à medida que a febre pela tecnologia toma conta do Vale do Silício e do mundo. Nos últimos meses, empresas de redes sociais como o Reddit e o Twitter, organizações de notícias como o The New York Times e a NBC News, autores como Paul Tremblay e a atriz Sarah Silverman tomaram posição contra a IA que suga os seus dados sem permissão.

Os seus protestos assumiram diferentes formas. Escritores e artistas estão bloqueando seus arquivos para proteger seu trabalho ou boicotando determinados sites que publicam conteúdo gerado por IA, enquanto empresas como o Reddit querem cobrar pelo acesso aos seus dados. Pelo menos 10 ações judiciais foram movidas este ano contra empresas de IA, acusando-as de treinar os seus sistemas no trabalho criativo de artistas sem consentimento. Na semana passada, Silverman e os autores Christopher Golden e Richard Kadrey processaram a OpenAI, criadora do ChatGPT, e outros pelo uso de seu trabalho pela IA.

No centro das rebeliões está uma nova compreensão de que a informação online – histórias, obras de arte, artigos de notícias, mensagens em fóruns e fotografias – pode ter um valor significativo e inexplorado.

A nova onda de IA – conhecida como “IA generativa” pelos textos, imagens e outros conteúdos que gera – é construída sobre sistemas complexos, como grandes modelos de linguagem, que são capazes de produzir prosa humana. Esses modelos são treinados com base em todos os tipos de dados para que possam responder às perguntas das pessoas, imitar estilos de escrita ou produzir comédia e poesia.

Isso desencadeou uma busca por parte das empresas de tecnologia por ainda mais dados para alimentar seus sistemas de IA. Google, Meta e OpenAI usaram essencialmente informações de toda a Internet, incluindo grandes bases de dados de fanfics, uma grande quantidade de artigos de notícias e coleções de livros, muitos dos quais estavam disponíveis gratuitamente online. No jargão da indústria de tecnologia, isso era conhecido como “raspagem” da Internet.

O GPT-3 da OpenAI, um sistema de IA lançado em 2020, abrange 500 bilhões de “tokens”, cada um representando partes de palavras encontradas principalmente online. Alguns modelos de IA abrangem mais de um trilhão de tokens.

A prática de raspar a internet é antiga e foi amplamente divulgada pelas empresas e organizações sem fins lucrativos que a praticavam. Mas não foi bem compreendido ou visto como especialmente problemático pelas empresas proprietárias dos dados. Isso mudou depois que o ChatGPT estreou em novembro e o público aprendeu mais sobre os modelos de IA subjacentes que alimentavam os chatbots.

“O que está acontecendo aqui é um realinhamento fundamental do valor dos dados”, disse Brandon Duderstadt, fundador e executivo-chefe da Nomic, uma empresa de IA. “Anteriormente, a ideia era que você obtinha valor dos dados tornando-os abertos a todos e veiculando anúncios. Agora, a ideia é que você bloqueie seus dados, porque você pode extrair muito mais valor ao usá-los como entrada para sua IA”