• João Ataide

Análise de dados do Airbnb - Toronto, Canadá


 

O Airbnb já é considerado como sendo a maior empresa hoteleira da atualidade. Porém esta não possui nenhum hotel! O maior diferencial desta empresa é o trabalho de conectar as pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática. O Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.


No final de 2018, quando ainda era um Startup, já haviam hospedado mais de 300 milhões de pessoas ao redor de todo o mundo, desafiando as redes hoteleiras tradicionais. Uma das iniciativas da empresa foi a abertura de dados para as principais cidades turísticas do mundo. Por meio do portal Inside Airbnb é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de Data Science.


A cidade de Toronto é capital da província de Ontário, ela é uma das mais importantes cidades canadenses, conhecida pelo seu turismo de inverno e por ser uma metrópole dinâmica com um núcleo de arranha-céus, além de possuir muitos espaços verdes, desde o oval organizado do Queen's Park até o High Park de 400 acres e suas trilhas.

Devido a isso, o presente projeto tem como intuito realizar uma análise exploratória dos dados, retirando assim diversos insights, referente aos serviços prestados pelo Airbnb na cidade de Toronto do Canadá. Tal projeto foi inspirado na prática do curso Data Science na Prática do Calor Melo. O trabalho completo pode ser visto no Notebook.



O dataset data de 7 Maio de 2020 trata-se de uma versão resumida, este possui diversas variáveis que poderá ser analisada, isto posto, foi então necessário conhecermos em primeiro lugar o seu dicionário de variáveis e entender o significado de cada nome das colunas.


  • id - número de id gerado para identificar o imóvel

  • name - nome da propriedade anunciada

  • host_id - número de id do proprietário (anfitrião) da propriedade

  • host_name - Nome do anfitrião

  • neighbourhood_group - esta coluna não contém nenhum valor válido

  • neighbourhood - nome do bairro

  • latitude - coordenada da latitude da propriedade

  • longitude - coordenada da longitude da propriedade

  • room_type - informa o tipo de quarto oferecido

  • price - preço para alugar o imóvel

  • minimum_nights - quantidade mínima de noites para reservar

  • number_of_reviews - número de reviews que a propriedade possui

  • last_review - data do último review

  • reviews_per_month - quantidade de reviews por mês

  • calculated_host_listings_count - quantidade de imóveis do mesmo anfitrião

  • availability_365 - número de dias de disponibilidade dentro de 365 dias

Do mesmo modo, antes de iniciar qualquer análise, verificaremos a "cara" do nosso dataset, analisando as 5 primeiras entradas, como podemos ver abaixo:

Desta forma, pude verificar os dados e então gerar algumas perguntas para conhecer a base de dados, questionando coisas como:


1. Quantos atributos (variáveis) e quantas entradas o nosso conjunto de dados possui?

2. Qual a porcentagem de valores ausentes no dataset?

3. Qual o tipo de distribuição das variáveis?

4. Qual o tipo de imóvel mais alugado no Airbnb?

5. Qual a localidade mais cara da Cidade de Toronto?


Para a primeira pergunta, ocorreu que, a maioria das variáveis apresenta poucos dados faltantes, no entanto, a camada neighbourhood_group, possui 100% dos seus dados. Como podemos ver abaixo:


Além disto, realizei o resumo estatístico destas, o que me instigou o levantamento de algumas hipóteses. Como podemos ver, as variáveis price e mínima de noites, possuem indicações de valores fora do normal chamados outliers, devido apresentarem as características como:


  • A variável price possui 75% do valor abaixo de 155.00, porém seu valor máximo é 14058.00, indicando a presença de outliers (valores fora do normal).

  • A quantidade mínima de noites (minimum_nights) está acima de 365 dias no ano, chegando ao máximo de 1125.00, e mínimo de 30,92 dias.


No entanto, para ter mais certeza iremos plotar o boxplot. Para o preço acima de U$2000.00 somando 100 entradas fazendo aproximadamente 0.4593%.



Para o mínimo de noites acima de 30 dias somando 560 dados fazendo aproximadamente 2,58% do dataset.



Por isso realizamos as limpezas necessárias, como a retirada da camada neighbourhood_group e uma aplicação de um filtro das variáveis, price e mínima de noites. Obtendo então os histogramas, que ilustram as distribuições de cada atributo.



Então notei que, a maioria das distribuições não apresenta normalização, contudo a pergunta seguinte era: "Qual o tipo de imóvel mais alugado no Airbnb?". Sabendo que a empresa, disponibiliza opções de apartamentos/casas inteiras, apenas o aluguel de um quarto ou mesmo dividir o quarto com outras pessoas. Então, contaremos a quantidade de ocorrências de cada categoria de aluguel e qual a porcentagem de imóveis disponíveis para cada tipo.

Logo, notei que a maioria prefere apartamentos privados, e em segundo lugar uma casa/apartamento completa. Onde supus que devido o mínimo de aluguel ser por volta de 30 dias, esses preferem conforto. Por último e não menos importante: "Qual a localidade mais cara da Cidade de Toronto?”. Foi então aplicado um filtro, em que calcula a média de preço por bairro.

Obtendo então que suas médias de preço possuem valores muito aproximados, tendo então uma distribuição quase que normal por bairro. Como podemos ver no histograma abaixo:

No entanto, quando fui plotar sua distribuição espacial, indica uma concentração na região central da cidade, onde estão presentes a maiorias dos pontos turísticos e universidades, como podemos ver abaixo:



O presente trabalho foi somente uma análise exploratória superficial da base de dados do Airbnb da cidade de Toronto no Canadá, em que foram percebidos alguns outliers em suas variáveis. Notou-se também uma distribuição desigual dos imóveis, tendo uma concentração destas regiões do centro da cidade e uma distribuição normal dos preços por bairros.


Por fim, é importante lembrar que este dataset é uma versão resumida, sendo o ideal para uma abordagem inicial de análise. Ficando então como objetivo futuro, uma análise mais apurada do dataset completo.