Respuestas
Respuesta:
1. Recogida de datos
La recogida de datos es el primer paso del procesamiento. Los datos se extraen de las fuentes disponibles, entre las cuales se cuentan los data lakes y los almacenes de datos. Es importante que las fuentes de datos disponibles sean fiables y estén bien creadas para que los datos recabados (que posteriormente se emplearán como información) sean de la más alta calidad posible.
2. Preparación de datos
Una vez recabados los datos, se pasa a la fase de la preparación de datos. La preparación de datos, a menudo llamada «preprocesamiento», es la etapa en la que los datos en bruto se limpian y organizan para la siguiente fase del procesamiento. Durante la preparación, los datos en bruto se verifican diligentemente para detectar errores. El objetivo de este paso es eliminar los datos erróneos (datos redundantes, incompletos o incorrectos) y empezar a crear datos de gran calidad para obtener la mejor business intelligence.
3. Introducción de datos
A continuación los datos limpios se introducen en su destino (puede ser un CRM, como Salesforce, o un almacén de datos, como Redshift y se traducen a un lenguaje comprensible. La introducción de datos es el primer paso en el que los datos en bruto empiezan a cobrar forma como información utilizable.
4. Procesamiento
Durante esta fase los datos ingresados en el ordenador en la fase anterior se procesan realmente para su interpretación. El procesamiento se efectúa por medio de algoritmos de machine learning, si bien el proceso en sí puede variar ligeramente según cuál sea la fuente de los datos que se esté procesando (data lakes, redes sociales, dispositivos conectados, etc.) y su uso previsto (estudiar patrones publicitarios, diagnósticos médicos a partir de dispositivos conectados, determinar necesidades de clientes, etc.).
5. Salida/interpretación de datos
La etapa de salida/interpretación es la fase en la que los datos resultan finalmente utilizables para los que no son científicos de datos. Están traducidos, son legibles y muchas veces se presentan en forma de gráficos, vídeos, imágenes, texto simple, etc. A partir de ese momento los miembros de una empresa o institución pueden empezar a autogestionarse los datos para sus propios proyectos de analíticas de datos.
6. Almacenamiento de datos
La última fase del procesamiento de datos es el almacenamiento. Cuando todos los datos están procesados, se almacenan para su futuro uso. Si bien hay alguna información que ya puede emplearse de inmediato, gran parte tendrá utilidad a posteriori. Además, almacenar correctamente nuestros datos es una necesidad para dar cumplimiento a la legislación de protección de datos, como el RGPD. Cuando los datos están bien almacenados, a los miembros de la organización les resulta fácil y rápido acceder a ellos siempre que lo necesiten.