[ad_1]


Entre los sitios web de los que se tomó información aparecen espacios de propaganda, extrema derecha, teorías conspirativas y 4chan.

Según el dicho la calidad de la información que un sistema ofrece es igual a la que se le suministra. Una investigación de The Washington Post y el Instituto Allen para las IA ha analizado la base de datos C4. Este es el recurso de Google utilizado para entrenar la herramienta T5 y Meta ha empleado en su inteligencia artificial de lenguaje LlaMA.

Distribución

Los investigadores descubrieron los sitios de los que el sistema había tomado sus datos. La distribución por género era la siguiente:

Un 16% eran sitios de negocios, un 15% de tecnología, un 13% de noticias, un 11% de entretenimiento, un 9% de ciencia y salud, un 8% de ocio, 7% de educación y trabajo, 7% de asuntos hogareños, 6% de viajes, 5% de comunidades y 4% de leyes.

Entre los sitios más empleados aparecen algunas curiosidades, como wowhead, un espacio dedicado al World of Warcarft. Así como varios sitios que venden contenedores para la basura.

Otros sitios menos recomendables

La selección de sitios tiene varios elementos cuestionables. El organismo de propaganda ruso RT, los espacios de extrema derecha Breibart y Stomfront. También se han tomado datos de 4chan y Kiwi Farms.

Muchos de los sitios de los que se ha tomado información promueven teorías conspirativas o impulsan discurso del odio.

También hay una gran cantidad de espacios que no deberían estar incluidos porque manejan información sensible. Entre ellos datos del electorado. Otro grupo de sitios web contiene datos bajo derechos de copia.

El problema

El problema con todo esto es que las IA no tienen un sentido ético, o sentido común. No entienden el texto que producen, simplemente predicen cuál es la siguiente línea lógica. Provistas con cierto material, establecen criterios de respuesta que responde a esos datos.

[ad_2]