Las cinco ‘Ws’ de la inteligencia artificial

Cómo la calidad de los datos lo son todo tanto para escribir una buena noticia como para entrenar un modelo de IA

Por muy pez que estés en Periodismo seguro que sabes que la principal función de una noticia es (o debería ser) responder a las famosas cinco ‘Ws’:

  • Who, quién
  • What, qué
  • Where, dónde
  • When, cuándo
  • Why, por qué

Con el extra del ‘How‘ (cómo).

También sabemos que un buen periodista se basa en los hechos (facts) para responder a estas preguntas. Hechos que, en su base, están formados por datos.

Los datos, a su vez, son la base primordial de cualquier modelo de IA. Su selección (y los sesgos que la constriñen), su precisión, su calidad, su consistencia, su validez y su actualización son claves. Datos malos dan como resultado un mal modelo de IA, igual que datos que fallan en una o varias de estas premisas dan noticias malas.

En el marco de una formación en IA que estoy cursando, llegué a este documento del profesor Blas Torregrosa de la UOC. Y en él, encontré esta tabla:

Cómo vemos, los datos son la materia prima que nos permite comenzar a responder a las 5 ‘Ws’ periodísticas, para lo que necesitamos lograr llegar más allá de la información: al conocimiento; y hasta sabiduría si queremos llegar al ‘Por qué’. Y para que esta cascada no se seque a primeras de cambio, la clave está en el paso de la ‘Información’: los datos deben haberse procesado, organizado, estructurado y puesto en contexto.

Sin ese trabajo -de entrada, tedioso- no hay noticia buena ni modelo de IA bueno. Si entrenamos sin calentar vienen las lesiones, y los modelos de IA sin entrenamiento son carcasas vacías, inútiles.

Así pues, ante un data set que queramos trabajar para escribir un reportaje, quizá no necesitemos pulir los datos porque yo sé qué «12/3/25» es igual que «12 de marzo de 2025», pero si quiero pedirle a un modelo IA que trabaje sobre ellos para darme respuestas a preguntas periodísticas con las que construir el reportaje, primero debemos:

  1. Abordar los datos faltantes
  2. Validar y corregir los datos
  3. Eliminar duplicados
  4. Estandarizar formatos

Porque ten en cuenta una cosa: estos modelos son muy pelotas y no les gusta reñirnos, por lo que casi seguro no nos avisará de errores de partida, sino que nos dará respuestas en apariencia concluyentes. Y, entonces, estaremos construyendo una información sesgada, incompleta e incluso, quizá, falaz.

Una herramienta no demasiado compleja y que viene de serie en el Excel es Power Query, y con ella podemos hacer este trabajo previo con nuestro dataset antes de subirlo a un modelo de IA y comenzar a preguntarle.

Enlaces útiles:

Suscríbete

para recibir un aviso cada vez que publique un artículo como este. Es gratis y pasa sólo muy de vez en cuando.

En el blog