Todas las empresas y personas estamos creando datos constantemente. Según un estudio de la Fundación Mapfre, cada minuto que pasa, los más de 4.500 millones de personas con acceso a Internet, que se calcula que hay actualmente en el mundo, envían casi 42 millones de mensajes de WhatsApp, se instalan 2.704 veces la aplicación TikTok, suben 500 horas de vídeo a YouTube, se unen 319 nuevos seguidores en Twitter, publican casi 348.000 post en Instagram y suben más de 147.000 fotografías a Facebook.
El mundo de la ingeniería de tráfico no ha sido diferente, disponemos de gran cantidad de datos procedentes de numerosas fuentes, cámaras, sensores, telefonía móvil, dispositivos de lectura de matrículas, semáforos, etc.
Estos datos no podían ser analizados en su totalidad por la cantidad de recursos que empleaban, pero gracias al uso de tecnologías como Big Data, se ha conseguido analizarlos y, no sólo para planificar el transporte de forma más eficiente, sino para generar patrones de movilidad con mayor eficacia, o para establecer modelos predictivos necesarios para la gestión del tráfico.
Todos estos datos deben ser transformados en información útil para generar valor y para ello, debemos seguir las cinco fases principales de todo proyecto Big Data.
1. Importación de datos: Los datos suelen estar dispersos en numerosas fuentes, como bases de datos, archivos, ERPs. CRMs,…El especialista en Big Data debe identificar la información a incluir y los mejores métodos para lograrlo.
2. Análisis exploratorio de los datos: En esta etapa es fundamental realizar una limpieza de los datos de origen, se deberán eliminar nulos, normalizar datos, eliminar información errónea, o hacerles transformaciones a los datos teniendo en mente nuestro objetivo.
Esta fase puede suponer un 80% del tiempo estimado para este tipo de proyectos, así que tomate el tiempo necesario, el resultado final depende de ello.
3. Análisis: En esta fase podemos emplear diferentes estrategias o herramientas para analizar los datos:
3.1 Modelado estadístico para entender los datos que tenemos, por ejemplo la búsqueda de outliers que nos pueden desvirtuar los resultados o interpolar ciertos datos para poder “rellenar” ciertos vacíos en los datos de partida.
3.2 Inteligencia artificial.
3.3 Minería de datos para detectar posibles patrones.
3.4 Aprendizaje automático
Cada una de estas herramientas nos permitirá resolver un desafío específico, por lo que es importante seleccionar el análisis correcto en función de nuestro objetivo final.
4. Visualización de datos: La representación de los datos de forma visual y atractiva es un mecanismo de comunicación muy eficiente a la mente humana que nos permite ver gran cantidad de datos.
Para ello podemos utilizar herramientas de BI como Tableau o Power BI, Qlik, o herramientas más complejas como las liberrías matplotlib o Seaborn de Python.
5. Toma de decisiones: Es el objetivo último, utilizar los datos como una fuente objetiva para tomar decisiones, o incluso identificar nuevas oportunidades.
Estas fases deben entenderse como un ciclo de vida continuo en el que se puede volver a fases posteriores tantas veces como sea necesario.
En definitiva, para poder llevar a cabo el proyecto con éxito debemos realizar un estudio completo de los datos, lo que nos supondrá un ejercicio de recopilación de todos los datos disponibles, una limpieza de los datos para eliminar datos nulos, o realizar las transformaciones adecuadas, y seleccionar las visualizaciones adecuadas para poder transmitir la información adecuada.
Este proceso que a priori, nos puede parecer largo y tedioso conlleva una serie de beneficios que a la larga son muy interesantes para una empresa:
1. La toma de decisiones se hace de forma más ágil, eficaz y objetiva.
2. Es posible detectar nuevas fuentes de ingresos o negocios que antes se desconocían.
3. Conocimiento profundo de los clientes lo que permite fidelizar a los clientes u ofrecer una mejor experiencia de usuario.
4. Eliminación de los Silos de información dentro de la empresa.