Transparência (1): Qual estado brasileiro tem o maior número de servidores federais?
Posted on November 15, 2015
Transparência (1): Qual estado brasileiro tem o maior número de servidores federais?
1 - Introdução
Alguns dos datasets brasileiros mais interessantes podem ser encontrados no Portal da Transparência, no qual é possível obter dados sobre:
gastos diretos do Governo Federal (desde 2004 - exceto Cartão de Pagamentos - desde 2002)
transferências de recursos a Estados e Municípios (desde 2004)
convênios com pessoas físicas, jurídicas ou entes governamentais (desde 1996)
previsão e arrecadação de receitas (desde 2009)
servidores do Governo Federal.
É por esse último item que mais me interessei no momento e sobre o qual publicarei uma série de posts nos próximos dias.
Os dados foram baixados deste endereço e correspondem ao mês de Agosto, que era a opção mais recente disponível até então.
A pasta zipada baixada contém cinco arquivos, dentre os quais só usaremos dois: 20150831-Cadastro.csv e 20150831-Remuneracao.csv. Ambos contem 44 variáveis e cerca de 700 mil linhas, mais a maioria delas não são muito importantes neste contexto.
2. Importação e limpeza dos dados
Após carregar as bibliotecas que serão usadas, hora de carregar os dados. Essa foi a primeira vez que eu trabalhei com um dataset tão grande no R. O arquivo pesa mais de 370 MB e demorou mais de um minuto para ser carregado. Imagina se fosse no Excel..
Ao notar que o carregamento dos dados demorava muito, usei uma solução que aprendi em fóruns sobre o R: importar apenas as colunas necessárias usando dplyr. Menos da metade das colunas presentes no arquivo csv original serão usadas na análise e o ato de filtrá-las fora agiliza em muito a importação para o R. Confira a comparação:
Cada linha do df corresponde a um servidor e cada uma das variáveis corresponde a um atributo do mesmo.
Primeiro ponto a ser analisado: qual a qualidade dos dados? Quantas variáveis tem muitos valores vazios ou nulos?
Visto que é possível que um mesmo servidor tenha mais de um cargo público (por exemplo, uma pessoa pode ser professora de universidade federal e chefe de seu departamento), é necessário excluir os servidores repetidos.
Uma informação não presente no relatório é a região do Servidor. Isso é facilmente inserido manualmente pelo R (aliás, um bom exercício seria a criação de uma library com datasets brasileiros).
Observação: notei um comportamento estranho do R. Ao fazer o merge(), ele automaticamente deleta todas as linhas onde o valor da variável UF_EXERCÍCIO é nulo. Como isso não implica um grande prejuízo para a análise, iremos proseguir mesmo assim.
Vamos agora à exploração básica de dados. Primeira pergunta: qual estado tem o maior número de servidores públicos?
É claro que a população de cada estado tem uma grande influência no resultado anterior… será?
Para tirar a dúvida, aqui vai um gráfico de proporção de servidores em cada estado. A tabela com a população de cada estado foi extraída manualmente da Wikipedia.
Os resultados são muito interessantes. Mais de um quarto dos habitantes do Distrito Federal são funcionários públicos. Roraima, Amapá e Rio de Janeiro também parecem ter máquinas públicas inchadas.
Para finalizar, vou salvar o data frame criado para posteriores análises.
O novo arquivo tem 191 MB, 48% a menos que o original.