En el mundo de los datos, se destinan grandes cantidades de esfuerzos y recursos para aprender las herramientas y modelos matemáticos y estadísticos. Desde cosas relativamente sencillas, como fórmulas de Excel, hasta modelos de lenguaje natural, regresión o clasificación. Sin embargo, considero que en muchos procesos de aprendizaje se ha descuidado la evaluación de los datos que se utilizan con estas herramientas y modelos.
«Garbage In, Garbage Out» o GIGO, es un concepto utilizado para referirnos a que, si los datos que ingresamos a los modelos son basura, nuestros resultados también serán basura. Puede sonar un poco fuerte, pero la realidad aún más dura es que es cierto. Existe una tendencia, creo que más evidente actualmente, a pensar que los modelos que utilizamos son como cajitas mágicas a las que les podemos entregar nuestros datos y nos proporcionarán exactamente lo que queremos, lo cual no es realidad.
El preprocesamiento de datos es igual o quizás más importante que la implementación de los modelos. Incluso en muchos casos, el 80% del tiempo se dedica a la correcta recolección, limpieza y extracción de los datos. En términos generales, un modelo correctamente implementado solo será tan bueno como la calidad de los datos que utiliza.
Otra consideración de GIGO es que, aunque en data es posiblemente donde sea más evidente, no se limita a este mundo. Situaciones como la escritura, la nutrición, la salud o incluso nuestra propia psique, han demostrado que su calidad depende en gran medida de con qué los alimentamos.
Si bien es importante conocer y entender los modelos, funciones y herramientas, también es muy importante poder comprender con qué estamos alimentando estas «maquinitas», ya que de eso dependerá lo que obtengamos de ellas.