Censo da Educação Superior (1) - Quais são as cidades mais universitárias do Brasil?
Posted on June 7, 2016
Recentemente, discuti com um amigo meu que afirmou que Aracaju, cidade onde moramos, é uma capital universitária - ou seja, uma cidade que atrai muitos estudantes de fora -, que eu não acredito que seja verdade. Mas não há melhor maneira de responder a isso senão com análise de dados, não é mesmo?
Introdução
Os dados que podem tirar essa dúvida, além de trazer a luz muitas outras informações interessantes, são os microdados do Censo da Educação Superior, disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira, o Inep. Segundo o Portal Brasileiro de Dados:
Anualmente, o Inep realiza a coleta de dados sobre a educação superior, com o objetivo de oferecer informações detalhadas sobre a situação atual e as grandes tendências do setor, tanto à comunidade acadêmica quanto à sociedade em geral.
A coleta dos dados tem como referência as diretrizes gerais previstas pelo Decreto nº 6.425 de 4 de abril de 2008. O censo da educação superior reúne informações sobre as instituições de ensino superior, seus cursos de graduação presencial ou a distância, cursos seqüenciais, vagas oferecidas, inscrições, matrículas, ingressantes e concluintes, além de informações sobre docentes, nas diferentes formas de organização acadêmica e categoria administrativa.
Para saber mais: http://www.censosuperior.inep.gov.br/
Os dados mais atualizados disponíveis ao público são de 2014. Neste post, mostrarei todo o processo da análise dos dados, composto por limpeza, manipulação e apresentação dos resultados.
Limpeza de dados
O arquivo principal desta análise, o DM_ALUNO.csv, é um arquivo de 5,4 GB onde as colunas são separadas pelo caractere |. Como só tenho 4 GB de memória RAM em meu notebook, o R não conseguirá importar este arquivo da maneira tradicional. Contudo, não é necessário carregar o arquivo para o R para saber algumas características sobre ele. O dicionário dos microdados, disponível na planilha ANEXO I - 2014, informa que existem 117 colunas no arquivo em questão. Felizmente, para responder a pergunta deste post, só precisamos de quatro colunas:
CO_IES, que informa o código único de identificação da IES do aluno;
CO_UF_NASCIMENTO, que informa o código do estado de nascimento do aluno;
CO_MUNICIPIO_NASCIMENTO, que informa o código do nascimento do aluno;
ANO_INGRESSO, que informa o ano de ingresso do aluno no curso.
Obs.: Veja que a variável ANO_INGRESSO diz respeito ao aluno que entrou no curso e não na universidade. Como mudanças de curso não são tão frequentes assim e como o volume de dados é muito grande, fazendo com que essas incertezas não prejudiquem o resultado, ignorarei esse detalhe nos resultados.
Para importar apenas essas colunas para o R, a melhor opção foi usar um comando em bash, que é muito mais rápido que o R para tarefas de tratamento de arquivos de texto. O que eu fiz foi criar um novo arquivo, chamado de DM_ALUNO_novo.csv, com apenas essas quatro variáveis:
Assim, o arquivo a ser importado tem apenas 195,5 MB. Contudo, como ele tem muitas linhas, escolhi o pacote data.table para importar e manipular os dados:
Com o data.table, o R levou menos de 3 segundos para carregar o arquivo. Já deu para ver que o objeto carregado tem quase 11 milhões de linhas e alguns valores nulos nas colunas referente à UF e ao município de nascimento.
Manipulação dos dados
Outro arquivo presente nos microdados é o DM_IES.csv, que traz informações sobre as Instituições de Ensino Superior no Brasil. Para este post, ele será usado como uma tabela suporte ao arquivo principal, que obterá dele informações sobre as IES de cada aluno, como o nome, o estado onde está localizada, o tipo da universidade, etc.
Apresentação de dados
Agora já é possível fazer diversas análises possíveis. Vamos então responder a algumas perguntas.
Quantos universitários estudam foram de suas cidades e de seus estados de nascimento?
57,38% dos alunos estudam em uma cidade diferente da que nasceram e 22,83% em um estado diferente.
A distribuição desse índice por cidade e por IES pode ser observada nestes gráficos:
A diferença da distribuição de alunos de outra cidade quando se agrega os resultados por cidade ou por IES é curiosa, a ponto de eu não conseguir formular uma explicação para ela.
Quais são as cidades que mais atraem universitários de outros municípios e estados?
Para isso, uma novidade aqui no blog: será usado o pacote cowplot para juntar quatro diferentes gráficos em uma imagem só.
Ou seja: para as 10 cidades com o maior porcentual de alunos de fora do município, esse valor é de 100%. O histograma dessa distribuição mostra que esse resultado não é surpreendente, pois existem mais de 20 cidades que têm no mínimo 95% de alunos de outra cidade.
Já quando se trata de analisar as cidades que mais atraem universitários de outros estados, quatro cidades goianas e três paranaenses despontam como capitais universitárias. Surpreendentemente (ao menos para mim), apenas uma cidade do Sudeste consta nesse Top 10.
Dentre as capitais, Palmas e Campo Grande se destacam como pólos universitários.
Possivelmente, o resultado será diferente se considerarmos, ao invés da quantidade relativa, o número absoluto de universitários, que é o que é feito abaixo:
Já que analisamos os resultados por cidade, podemos fazer o mesmo por estado: quais UFs recebem mais estudantes de outros estados?
O estado do Paraná é disparado o campeão nesse quesito em ambos os critérios, isto é, tanto por quantidade absoluta - cerca de 600.000 universitários de outras partes do Brasil estudam na Rússia brasileira - como por porcentual - aquela quantidade corresponde a cerca de 55% do total de estudantes matriculados em universidades paranaenses.
Na outra ponta do gráfico, a ponta inferior esquerda, a maioria dos estados são da região Nordeste e Norte, com destaque negativo para Maranhão, Alagoas e Bahia, três dos estados mais pobres do país. Arrisco dizer que, por serem mais pobres que a média nacional, as universidades desses estados não têm reputação suficiente para atrair universitários de outros estados do Brasil.
Conclusão
Este é o fim de mais um post. No próximo post, falarei sobre o efeito do Enem no movimento migracional