FOPEA - Logo - Light

Herramienta para periodistas: DataProofer, para identificar errores en datasets

Herramienta para periodistas: DataProofer, para identificar errores en datasets

DataProofer es una herramienta que bien puede convertirse en una gran ayuda para los periodistas al ahorrarle tiempo para buscar automáticamente y marcar posibles errores o la falta de información en sus datos. Es, en síntesis, una herramienta que automatiza el proceso de verificación de un conjunto de datos en busca de errores, posibles errores o falta de información.

¿De qué le sirve a los periodistas? Le sirve a los periodistas que trabajan con datos, ya sea analizando o visualizando información existente o creando conjuntos de datos originales a través de sus propios informes. Verificar manualmente un conjunto de datos para detectar posibles errores y limpiar la información puede tomar mucho tiempo, dependiendo del tamaño del conjunto de datos, y también puede introducir la posibilidad de errores humanos adicionales. DataProofer es una herramienta de código abierto desarrollada por Vocativ con el apoyo del Knight Foundation Prototype Fund para acelerar este proceso, ejecutando una selección de pruebas automatizadas para identificar las imprecisiones.

Cómo funciona la herramienta:

Primero, es necesario descargar el archivo .zip correspondiente al sistema operativo (macOS, Windows o Linux). Si estás usando una Mac, arrastra la aplicación DataProofer a la carpeta ‘Aplicaciones’ para instalarla.

Abrí DataProofer y subí el conjunto de datos que deseás verificar.Podés cargar un conjunto de datos desde tu computadora en cualquiera de los formatos compatibles: XLSX, XLS, CSV, TSV, PSV, o copiar y pegar la URL o ID de una hoja de cálculo de Google. 

Después de cargar los datos, podés elegir las pruebas que te gustaría ejecutar en el conjunto de datos. Hay varias opciones, separadas en cuatro categorías: información y diagnóstico; pruebas de datos centrales; pruebas de datos estadísticos; y pruebas de datos geográficos.

Se pueden verificar filas idénticas o verificar con celdas que contengan caracteres especiales que pueden causar errores con herramientas de visualización de datos. Si solo deseás ejecutar ciertas pruebas, desmarcá las casillas de las que no necesitás usar y hacé clic en el botón “Ejecutar pruebas” en la parte superior.

La herramienta devolverá un desglose de los resultados señalando aquellos que identifican posibles errores o inexactitudes. 

Se puede desplazar sobre los resultados problemáticos para obtener información adicional y sugerencias sobre qué se podría hacer para corregir el error, por ejemplo, reemplazar un carácter impar con un espacio o consultar su fuente nuevamente si la información aparece dos veces de la misma manera y esto no fue así. lo que pretendías

La herramienta se lanzó en el 2016. El código también está disponible en GitHub para aquellos que puedan estar interesados ​​en buscar maneras de desarrollarla aú más.

Fuente: journalism.co.uk

administrator

Related Articles