• João Ataide

Fontes de dados livres


 

Uma das maiores dúvidas do pessoal que está iniciando nas análises de dados em geral é onde eu posso obter os dados que preciso para realizar os trabalhos, no geral a maioria das pessoas utiliza a Google como fonte de pesquisa, no entanto, desconhecem que existem alguns motores de busca específicos para esse tipo de pesquisa, como o Dataset Search da google.



Mesmo havendo tal ferramenta, que facilita o trabalho, sempre é importante saber algumas referências de onde obter os dados a depender do formato e tipo que está procurando, para isso farei aqui uma lista de alguns dos sites que mais uso quando estou prospectando informações para realizar trabalhos, seja no sensoriamento remoto, geoprocessamento ou na criação de modelos de machine learning e deep learning.



Uma plataforma importante é Earth Explorer da USGS, muito conhecida por aqueles que trabalham com geotecnologias, essa possui diversos dados, desde a modelos digitais de terreno a imagens de satélite.


A INDE foi criada pelo governo federal sendo coordenada pelo IBGE e tem como proposito de catalogar, integrar e harmonizar os dados geoespaciais existentes em todas as instituições nacionais.


Outa plataforma importante é o local onde encontramos as imagens do nosso famoso satélite Sino-Brasileiro CBERS e outros, tal site projetado e administrado pelo Instituto Nacional de Pesquisas Espaciais - INPE.


O OpenStreetMap (OSM) é um projeto colaborativo de mapeamento que atua mundialmente e disponibilizado gratuitamente e serve como uma boa fonte de dados quando se trata de dados geoespaciais de arruamentos.


O reddit é uma daquelas plataformas de fóruns de discussões que tinham no início da internet, neste existem diversos dados que podem ser utilizados para estudos iniciais sem muita finalidade comercial ou acadêmica.


UCI também é uma coleção de bancos de dados, teorias de domínio e geradores de dados usados pela comunidade de machine learning para a análise empírica de algoritmos e aprendizagem de máquina.


O kaggle já é um companheiro de muito tempo do pessoal, a plataforma de competições possui diversos datasets reais e fictícios, servidos como boa fonte de estudos ou até mesmo de dados para provas de conceito.


Five Thirty Eight é um site americano que se concentra em análise ‎‎de pesquisas de opinião,‎‎ política, economia, blogs esportivos e diversas informações interessantes.



Yahoo! Finance é uma API bem interessante de finanças, tal aplicação possui funcionalidade de consulta utilizando linguagem de programação e aplicado bastante, de maneira comercial em análises financeiras.



Como o anterior, a Google Finanças possui a mesma funcionalidade e finalidade, podendo ser usado como outra alternativa para obter essas informações.


Banco Central do Brasil é a principal autoridade ‎‎monetária‎‎ do país e possui informações de diversas instituições nacionais, como a ‎‎Secretaria de Moeda e Crédito‎‎ ‎‎ ‎‎(SUMOC),‎‎ o ‎‎Banco do Brasil‎‎ (BB), o Tesouro ‎‎Nacional‎‎ ‎‎e diversos índices importantes para análise financeira.‎


O TWB é uma ‎‎instituição financeira internacional‎‎ que fornece empréstimos e subvenções aos governos de países de baixa e média renda visando prosseguir projetos de capital, possuindo dados financeiros de diversos países.


O Quandl é uma API de ‎que disponibiliza diversas informações financeiras de ações, dividendos e divisões para 3000 empresas de capital aberto dos EUA e do mundo.‎


O CoinMarketCap também é uma API o qual possibilita a obtenção de informações do mercado de criptomoedas, de todo tipo de moeda, desde as moedas mais antigas como Bitcoin e Ether e as cheat coins como Doge e Shiba Inu.


A Binance é a maior plataforma de negociação de criptomoedas e possui uma API com diversas ferramentas que nos ajuda no trabalho com criptoativos.


O Dados.Gov é uma plataforma criada pelo Governo Federal que possui a finalidade de integrar dados e informações públicas de diversas instituições ligadas ao Governo Federal.


O DATASUS é a plataforma de transparência do Sistema Único de Saúde (SUS), este possui diversas informações sobre o sistema de saúde nacional e foi muito usado agora na pandemia.


Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira é responsável por realizar o censo escolar e a realização do Enem, sendo esse de extrema importância para estudos referentes a educação.



Sistema IBGE de Recuperação Automática é uma plataforma do IBGE que permite a consulta de dados no banco de tabelas estatísticas da instituição, informando índices, como o Índice Nacional de Preços ao Consumidor Amplo (IPCA), Pesquisa Mensal de Serviços( PMS), Índice Nacional de Preços ao Consumidor (INPC) e outros.


O IBGE também possui a plataforma própria, que facilitam às vezes a pesquisa e aquisição dos dados, em especial quando são shapefiles com as delimitações dos estados, cidades e os setores censitários.


O Tribunal Superior Eleitoral também possui uma plataforma própria que disponibiliza dados das eleições desde 1933, informando candidatos, número de votos por seção e informações de resultados.


Sistema de Inteligência Estratégica da Embrapa plataforma que dispõem de diversas informações sobre o setor agropecuário do país com a produção agrícola, pecuária, abate de animais e outras.


Mendeley é uma plataforma usada por diversos pesquisadores de inúmeras instituições pelo mundo, tais que disponibilizam dados de suas pesquisas chegando a somar 29 milhões de datasets.


Como última fonte de dados esse pensado que encontrei no twitter, a API Base dos Dados que esta unificando várias bases de dados do país.


É importante salientar que essas são somente algumas das fontes de dados que mais utilizo em meus trabalhos e sei que muitos dos meus colegas também, além disso, sempre é importante saber realizar scrapy, caso você necessite realizar a mineração de informações em alguns outros sites ou até mesmo entrar em contato com quem administra os dados, às vezes um e-mail sempre ajuda.