Latinoamérica fuera del mapa de la IA: por qué urge un modelo de lenguaje propio

ChatGPT se ha convertido en la plataforma de mayor crecimiento en la historia de internet, alcanzó un millón de usuarios en cinco días, y cien millones en tan solo dos meses. Su éxito se debe a la novedad del sistema, a su facilidad de uso y a su acceso gratuito. Hoy, las personas lo emplean para trabajar, estudiar o resolver tareas cotidianas, convirtiéndolo -de manera equivocada- en un nuevo buscador. Y a pesar de tantas bondades, seguimos temiendo a la inteligencia artificial, sobre todo en lo concerniente al futuro del trabajo. Sin embargo, hoy existen otros desafíos igual de preocupantes en el entorno iberoamericano, y que ya deberían formar parte de la agenda pública.

Modelos como ChatGPT, Gemini, Bert o Claude no constituyen una sola tecnología en sí misma, sino que integran diferentes sistemas. Uno de ellos es el de los Grandes Modelos de Lenguaje (LLM por sus siglas en inglés), que sirven para entrenar enormes volúmenes de datos que permiten a las máquinas procesar y generar texto con sorprendente naturalidad.

ChatGPT es la interfaz (la cara) del LLM, y según OpenAI -empresa desarrolladora de ChatGPT, este se entrenó con información “pública y gratuita” disponible en internet, tal como: páginas web, blogs, foros, Wikipedia, artículos y documentos académicos. Esto a primera vista nos da una sensación de diversidad en la información, pero en la práctica significa que más del 70 % de los datos utilizados para el entrenamiento están en inglés. Y es allí, justamente, donde comienzan nuestros problemas: en la disparidad del origen de los datos.

El sesgo lingüístico

Cuando ChatGPT genera respuestas en español, estas no son producto de datos en esta lengua, sino que son el resultado de traducciones automáticas. El resultado es una fuerte influencia cultural anglosajona que puede distorsionar matices y expresiones propias del idioma y del pensamiento hispano. Usar ChatGPT -o cualquier otro modelo de lenguaje- es, en cierto modo, como ver una película en lengua inglesa con subtítulos en español.

Lo realmente inquietante es que, a pesar de que el español es la segunda lengua más utilizada en internet, sus contenidos digitales tan solo representan un 6% en la web, frente al 49 % del inglés. En plataformas como Netflix, apenas un tercio de las películas no son anglófonas, y ese tercio se reparte entre unas treinta lenguas. Así que, aunque parezca que el mundo digital es diverso, ya que se nos vende la idea de que todos tenemos la capacidad de generar contenidos, lo cierto es que la mayoría de lo que vemos, leemos y escuchamos, tiene acento norteamericano.

Otro problema, de los tantos que tenemos con la tecnología, es de carácter epistemológico, y es que esta se ha ido apropiando de términos de uso tradicionalmente humanos, como inteligencia, razonamiento, análisis, etc., y nosotros, al desconocer los conceptos tecnológicos, los hemos equiparado con el significado humano. Así que, cuando se dice que un LLM utiliza “lenguaje natural”, no se refiere al lenguaje que hablamos las personas. Significa que, gracias a modelos matemáticos y estadísticos, es capaz de descifrar cómo usamos las palabras.

Por ello, la pregunta ética es:¿realmente ChatGPT comprende la diversidad cultural del mundo o simplemente refleja las limitaciones culturales de sus datos de entrenamiento? Creo que todos conocemos la respuesta.

Colonialismo Algorítmico

El problema se agrava cuando esas limitaciones se traducen -literalmente- en invisibilidad, porque la representación cultural iberoamericana en esos datos es mínima. Y eso es grave, considerando que el español se habla en 21 países de tres continentes, y que somos más de 635 millones de hispanohablantes. Y no es una simple cuestión de incluir palabras: se trata de una cuestión de identidad. No hablamos igual en Colombia que en España: nos une la lengua, pero nos diferencia la historia, el mestizaje, la geografía, el trópico, los acentos y hasta los mosquitos. Si esos matices no existen en los datos con los que se entrenan los LLM, entonces nuestras voces serán ignoradas, por no hablar de colectivos históricamente marginalizados como las mujeres, los indígenas, los afrodescendientes, etc.

Hoy, cuando se habla tanto del colonialismo, tal vez deberíamos mirar hacia una nueva forma más sutil y perversa, que es el colonialismo algorítmico, donde los valores y modos de pensar anglosajones dominan el discurso digital. Y mientras tanto, seguimos usando ChatGPT para “mejorar” nuestros textos… sin notar que, poco a poco, el algoritmo está redefiniendo incluso la forma en que nos comunicamos.

Y esta nueva forma de invisibilidad cultural ya nos está pasando factura, un estudio de la Universidad Complutense señala que nuestra comunicación por correo electrónico, redes sociales y WhatsApp está cambiando: ahora usamos frases cortas y un tono más artificial. Los textos generados por ChatGPT en español suelen ser traducciones literales del inglés, lo que elimina matices y giros lingüísticos propios, simplificando la riqueza expresiva y fragmentando los párrafos tradicionales del español. Por no hablar de cómo hemos dejado de utilizar signos de puntuación y de usar una coma después del saludo como sucede en el inglés, cuando la norma en español establece que se deben utilizar dos puntos.

La necesidad de un LLM en español

Los latinoamericanos, que siempre estamos buscando las diferencias entre nosotros, tendríamos que comenzar a pensar en la urgencia de tener un LLM en español. Y es que un proyecto como este, no solo permitiría la inclusión en el mundo digital, sino que además tendríamos un propósito en busca del bien común, que generaría trabajos, conocimiento, recursos, alianzas (universidades, gobiernos y empresas) y la posibilidad de aparecer en el mapa mundial de la Inteligencia artificial.

Nuestra región necesita encontrar espacios que permitan la integración, no de una sola identidad, sino de un colectivo que habla la segunda lengua más utilizada en internet. Tenemos la obligación moral de construir datasets (conjuntos de datos) locales con diversidad lingüística y cultural, porque si como región no lo hacemos, ¿quién va a hacerlo?

Ahora, no se trata de “imitar” a Silicon Valley, sino de pensar en una ética situada en Latinoamérica, que responda a nuestros contextos, que entienda quiénes somos, y que genere valor agregado cultural, social y tecnológico a la región. Se trata de que pasemos de que nuestros programadores trabajen para países del primer mundo como mano de obra barata tecnológica para otros, a programar y producir tecnología por y para nosotros. Y que además, sea capaz de exportarse al mundo.

Porque subirnos al tren de la inteligencia artificial no significa que todos los hispanohablantes usemos ChatGPT, sino que creemos las condiciones locales para construir nuestra propia tecnología. El verdadero salto no consiste en hablarle a una máquina en español, sino en enseñarle a pensar desde el español, con nuestros valores, nuestras voces y nuestra forma de entender el mundo.Solo entonces la inteligencia artificial dejará de traducirnos para, por fin, reconocernos.

_{*Este texto se enmarca en la colaboración entre la Organización de Estados Iberoamericanos para la Educación, la Ciencia y la Cultura (OEI) y Latinoamérica21 para la difusión de la plataforma Voces de Mujeres Iberoamericanas. Conoce y únete AQUÍ a la Plataforma.}

Autor

Liliana Acosta

Otros artículos del autor

Filósofa especializada en ética aplicada a la tecnología. Fundadora de Thinker Soul, consultoría dirigida a la digitalización de las empresas y a la innovación. Especializada en reflexionar y divulgar sobre inteligencia artificial (IA).

Latinoamérica fuera del mapa de la IA: por qué urge un modelo de lenguaje propio

El dominio anglosajón en la IA deja a Latinoamérica sin voz en el mundo digital y urge construir tecnología que piense desde América Latina.

Autor

Liliana Acosta

Los obstáculos de la agenda regional de cuidados desde una mirada feminista

La verdad en tiempos de imágenes sintéticas

La IA y el refugio digital: cómo la tecnología está rediseñando nuestros vínculos

Progresividad o ajuste: las bases de un nuevo pacto fiscal latinoamericano

IA y datos satelitales: una oportunidad con grandes desafíos para América Latina

Los impactos de la crisis climática en América Latina

De la inteligencia a la sabiduría artificial: la IA y los Pueblos Indígenas de América Latina

La cara oculta de la gobernanza IA: las normas invisibles que dejan a América Latina fuera del futuro digital

Más artículos relacionados