O ChatGPT se tornou a plataforma de maior crescimento na história da internet, alcançou um milhão de usuários em cinco dias e cem milhões em só dois meses. Seu êxito se deve à novidade do sistema, à sua facilidade de uso e ao acesso gratuito. Hoje, as pessoas o utilizam para trabalhar, estudar ou resolver tarefas cotidianas, transformando-o — de forma equivocada — em um novo mecanismo de busca. E, apesar de tantas vantagens, continuamos temendo a inteligência artificial, sobretudo no que diz respeito ao futuro do trabalho. No entanto, hoje existem outros desafios igualmente preocupantes no entorno ibero-americano, que já deveriam fazer parte da agenda pública.
Modelos como ChatGPT, Gemini, Bert ou Claude não constituem uma única tecnologia em si, mas integram diferentes sistemas. Um deles é o dos Grandes Modelos de Linguagem (LLM, na sigla em inglês), que servem para treinar enormes volumes de dados que permitem às máquinas processar e gerar texto com surpreendente naturalidade.
O ChatGPT é a interface (a cara) do LLM e, segundo OpenAI — empresa desenvolvedora do ChatGPT —, ele foi treinado com informação “pública e gratuita” disponível na internet, como: páginas web, blogs, fóruns, Wikipedia, artigos e documentos acadêmicos. À primeira vista, isso nos dá uma sensação de diversidade na informação, mas, na prática, significa que mais de 70% dos dados utilizados para o treinamento estão em inglês. E é aí, precisamente, que começam nossos problemas: na disparidade da origem dos dados.
O viés linguístico
Quando o ChatGPT gera respostas em espanhol, elas não são produto de dados nesse idioma, mas sim o resultado de traduções automáticas. O resultado é uma forte influência cultural anglo-saxônica que pode distorcer nuances e expressões próprias da língua e do pensamento hispânico. Usar o ChatGPT — ou qualquer outro modelo de linguagem — é, de certa forma, como assistir a um filme em inglês com legendas em espanhol.
O que é realmente preocupante é que, apesar de o espanhol ser a segunda língua mais usada na internet, seus conteúdos digitais representam apenas 6% da web, contra 49% do inglês. Em plataformas como a Netflix, apenas um terço dos filmes não são anglófonos, e esse terço é dividido entre cerca de trinta idiomas. Portanto, embora pareça que o mundo digital é diversificado, já que nos vendem a ideia de que todos temos a capacidade de gerar conteúdos, a verdade é que a maior parte do que vemos, lemos e ouvimos tem sotaque norte-americano.
Outro problema, entre os muitos que temos com a tecnologia, é de caráter epistemológico, pois vem se apropriando de termos tradicionalmente humanos, como inteligência, raciocínio, análise, etc., e nós, por desconhecermos os conceitos tecnológicos, os equiparamos ao significado humano. Portanto, quando se diz que um LLM usa “linguagem natural”, não se refere à linguagem que as pessoas falam. Significa que, graças a modelos matemáticos e estatísticos, é capaz de decifrar como usamos as palavras.
Portanto, a questão ética é: o ChatGPT realmente compreende a diversidade cultural do mundo ou simplesmente reflete as limitações culturais de seus dados de treinamento? Acho que todos sabemos a resposta.
Colonialismo Algorítmico
O problema se agrava quando essas limitações se traduzem — literalmente — em invisibilidade, porque a representação cultural ibero-americana nesses dados é mínima. E isso é grave, considerando que o espanhol é falado em 21 países de três continentes e que somos mais de 635 milhões de falantes de espanhol. E não é uma simples questão de incluir palavras: é uma questão de identidade. Não falamos da mesma forma na Colômbia e na Espanha: a língua nos une, mas a história, a miscigenação, a geografia, o trópico, os sotaques e até os mosquitos nos diferenciam. Se essas nuances não existirem nos dados com os quais os LLM são treinados, então nossas vozes serão ignoradas, sem falar dos grupos historicamente marginalizados, como mulheres, indígenas, afrodescendentes, etc.
Hoje, quando se fala tanto de colonialismo, talvez devêssemos olhar para uma nova forma mais sutil e perversa, que é o colonialismo algorítmico, onde os valores e modos de pensar anglo-saxões dominam o discurso digital. E, enquanto isso, continuamos usando o ChatGPT para “melhorar” nossos textos… sem perceber que, aos poucos, o algoritmo está redefinindo até mesmo a forma como nos comunicamos.
E essa nova forma de invisibilidade cultural já está nos cobrando um preço. Um estudo da Universidade Complutense aponta que nossa comunicação por e-mail, redes sociais e WhatsApp está mudando: agora usamos frases curtas e um tom mais artificial. Os textos gerados pelo ChatGPT em espanhol geralmente são traduções literais do inglês, o que elimina nuances e expressões linguísticas únicas, simplificando a riqueza expressiva e fragmentando os parágrafos tradicionais em espanhol. Sem mencionar como deixamos de usar sinais de pontuação e a vírgula após a saudação, como é comum em inglês, quando o padrão em espanhol exige o uso de dois pontos.
A necessidade de um LLM em espanhol
Nós, latino-americanos, que estamos sempre buscando diferenças entre nós, devemos começar a pensar na necessidade urgente de ter um LLM em espanhol. Um projeto como esse não só permitiria a inclusão no mundo digital, mas também nos daria um propósito na busca do bem comum, gerando empregos, conhecimento, recursos, alianças (universidades, governos e empresas) e a possibilidade de figurarmos no mapa global da Inteligência Artificial.
Nossa região precisa encontrar espaços que permitam a integração não de uma única identidade, mas de um coletivo que fale a segunda língua mais usada na internet. Temos a obrigação moral de construir conjuntos de dados locais com diversidade linguística e cultural, porque se nós, como região, não o fizermos, quem o fará?
Não se trata de “imitar” o Vale do Silício, mas de desenvolver uma ética situada na América Latina, que responda aos nossos contextos, compreenda quem somos e gere valor cultural, social e tecnológico adicional para a região. Trata-se de deixar de ter nossos programadores trabalhando para países desenvolvidos como mão de obra tecnológica barata para outros, e passar a programar e produzir tecnologia por e para nós mesmos. E, além disso, tecnologia que possa ser exportada para o mundo.
Porque aderir à inteligência artificial não significa que todos os falantes de espanhol usarão o ChatGPT, mas sim que criemos as condições locais para construir nossa própria tecnologia. O verdadeiro salto não é falar com uma máquina em espanhol, mas ensiná-la a pensar a partir do espanhol, com nossos valores, nossas vozes e nossa maneira de entender o mundo.
Só então a inteligência artificial deixará de nos traduzir para, por fim, nos reconhecer.
Tradução automática revisada por Isabel Lima










