7 de febrero de 2018 - 08:28

Conocé cuáles son los mejores horarios para volar a Buenos Aires

Gracias a un estudio de factores climáticos podemos descifrar cuáles son los horarios para sentir en menor medida el cambio de clima.

El SMN dispone en su nueva web de una sección de descarga de datos que básicamente sirve para leer datos históricos relacionados  a factores climáticos como la temperatura, humedad, presión atmosférica, nubosidad y más. De esta manera, nos permite trabajar con datos fehacientes para luego poder visualizarlos.

La única desventaja que podemos encontrar en este estudio fue que sólo deja descargar datos en *txt (texto plano), un formato bastante más complicado para trabajar que un *csv (tabla delimitada por comas), Más allá de esta desventaja y adicionando un par de pasos se puede decodificar los mismos con lenguaje R usando la librería "readr" que sirve para leer archivos externos y reconocer títulos y espacios en blanco que queramos eliminar. Finalizado esto, el paso siguiente sería convertir este archivo de texto plano en un dataframe (conjunto de datos diferentes al estilo tabla, similar a un csv)

"Un dataframe es un conjunto de datos recopilados en un archivo. Pueden ser de una misma clase o no"

El archivo que descargamos en esta sección se llama "estadistica.txt" y contiene los datos de todas las estaciones aéreas del país correspondientes a lo que va de esta temporada de verano. El siguiente paso es guardarlo en una carpeta y convertirlo en dataframe con los siguientes comandos:

(El código está comentado para que puedas entender paso a paso los procesos)

 *Llamo a librería  library(readr)    *Leo txt y lo convierto en tabla  datos <- read_table2("C:/Users/rpardo/Downloads/estadistica.txt")    *Visualizo en consola el dataframe  View(datos)  

Listo! La tabla ha sido creada. A continuación te adjunto una captura para que aprendas conmigo cómo vamos interpretando estos datos:

En todo proceso de Big Data, una vez que tenemos toda la información recopilada llega el momento de limpieza de datos que básicamente es descartar aquello que interfiere o no sirve para lograr un estudio más eficiente. 

Tenemos un dataframe llamado datos con nueve parámetros diferentes entre ellos fecha, hora, temperatura, humedad, presión atmosférica, vientos, nombre de aeropuerto y más. Pero lo que realmente nos interesa en este estudio es comparar solo a Aeroparque con el aeropuerto de la ciudad de Mendoza para ver si realmente tienen diferencias en sus temperaturas y si la humedad que aprecia el mendocino al llegar a Buenos Aires es una sensación o no.

Llegó el turno de crear dos variables llamadas ba (que contenga todos los datos de Aeroparque) y mendoza (que contenga todos los datos de Mendoza). Para eso, vamos a utilizar la función subset.

 *Guardo en una variable ba todos los datos de la estacion Aeroparque    ba <- subset(datos, ESTACION = "AEROPARQUE")  

Realizamos lo mismo para obtener los datos de "El Plumerillo", aeropuerto internacional de Mendoza:

 *Guardo en una variable mendoza todos los datos de la estacion Mendoza mendoza <- subset(datos, ESTACION = "MENDOZA")     

Listo! Ya tenemos los datos de cada aeropuerto en cada una de las variables.

Organizado los datos, pasamos a graficar utilizando la librería ggplot lo que nos va a permitir apreciar las diferencias de temperatura y humedad en las distintas horas del día.

 *LLamo a librería ggplot para graficar en líneas    ggplot()+    geom_line(data = mendoza, aes(x=mendoza$HORA, y= mendoza$HUM), color = "green")+    geom_line(data = ba, aes(x=ba$HORA, y= ba$HUM), color = "red")+    xlab("Hora")+    ylab("Humedad")+    ggtitle("Humedad en ambos aeropuertos")    

Resultado: podemos deducir que sí viajás desde Mendoza a Aeroparque a partir de las 18 horas, vas a poder percibir la diferencia de humedad entre ambas localidades al pasar de valores que oscilan entre 20%-45% a 75%-85%. Por lo tanto, si sufrís la humedad alta, te recomiendo no viajar en estos horarios.

Referencia del gráfico: en rojo, Aeroparque | en verde, Mendoza

Ahora, analizamos la temperatura de ambos aeropuertos y por lejos...Mendoza fue más hot. En horarios de 15 en adelante es donde más diferencia de temperatura se percibe por lo que tampoco te recomiendo viajar en este horario.

 *Llamamos a la librería y graficamos    ggplot()+    geom_line(data = mendoza, aes(x=mendoza$HORA, y= mendoza$TEMP), color = "green")+    geom_line(data = ba, aes(x=ba$HORA, y= ba$TEMP), color = "red")+    xlab("Hora")+    ylab("Temperatura")+    ggtitle("Temperatura en ambos aeropuertos")    

Gracias a este estudio de datos, podemos llegar a la conclusión de que si sos un pasajero frecuente de Aerolíneas Argentinas, LAN o ANDES y sufrís de los cambios de temperatura y humedad, te conviene viajar en los siguientes horarios tanto en la ida como la vuelta (casualmente son los vuelos de mayor demanda):

Referencias del estudio:

Lenguaje utilizado: R

Librerías: readR, ggplot

Datos fuente: Servicio Meteorológico Nacional

Estoy en Linkedin, seguime y hablamos de tecnología y datos:

LAS MAS LEIDAS