Mapa de John Snow revisitado

Resumo: Dados do médico higienista John Snow, famoso por ter utilizado a análise espacial em 1854 para reverter o surto de cólera vivido no bairro Soho, na Inglaterra, foram digitalizados em homenagem ao seu bicentenário de nascimento. Para que a homenagem não ficasse só nisso, uma nova abordagem é proposta usando os mesmos dados, mas com as tecnologias atuais. Os dados do surto de cólera serão, então, utilizados em análises espaciais utilizando o software estatístico R considerando novas abordagens para um dos mapas mais famosos.

Imagem

John Snow, médico higienista inglês, considerado um dos pais da epidemiologia1, ficou conhecido pela solução dada a um surto de cólera no bairro do Soho, na Inglaterra, baseando-se nos princípios básicos na análise espacial.

INTRODUÇÃO

A solução é até hoje apresentada nos cursos básicos de SIG, Geoprocessamento e análise espacial, como forma de evidenciar a importância da análise espacial, a sua transdisciplinaridade e eficiência, independente do uso de ferramentas e tecnologias. A solução dada pelo John Snow, em 1854, foi o mapeamento dos casos de morte por cólera relacionando-os à localização das bombas de abastecimento de água, que até então ficavam nas ruas (figura 1). O que atualmente pode parecer um tanto óbvio, foi marcante ao fundamentar a importância da análise espacial no ganho de inteligência geográfica para o combate do surto de cólera.

Imagem

Figura 1: Mapeamento elaborado por John Snow para sanar o surto de cólera.

Para homenagear o médico, no dia de seu bicentenário de nascimento (15 de Março  de 2013), Robin Wilson reorganizou os dados utilizados por John Snow, que vão desde o registro dos casos de cólera georreferenciados até a digitalização e georreferenciamento do mapa base, disponibilizando-os através de seu blog2 e da lista de e-mail3 sobre a ferramenta estatística R.

Além de achar muito interessante a iniciativa do Robin Wilson, me peguei perguntando: até que ponto as novas tecnologias nos possibilitariam novas abordagens para o mesmo conjunto de dados e o mesmo princípio de análise espacial?

Assim, me senti instigado a utilizar tais dados aproveitando as pesquisas de análises espaciais no software R, que tenho desenvolvido e, é justamente o que me proponho a fazer no presente artigo.

O software R é, em sua essência uma ferramenta livre e gratuita para análises estatísticas baseada em linguagem de programação. Justamente pela sua concepção livre, tornou-a de grande utilidade sendo possível, de um pacote básico, a evolução para análises mais específicas através de pacotes desenvolvidos pelos vários colaboradores. Nessa gama de pacotes, há vários que tornam possível fazermos análises espaciais e mapas. É claro que a manuseabilidade do software, que se faz pela linguagem R, torna-o incomparável com os demais softwares de SIG existentes, que são muito mais amigáveis. Contudo, há benefícios no uso do R. Aquém do julgamento de qual software é melhor, propõem-se aqui apenas evidenciar uma das diversas possibilidades de se trabalhar com dados espaciais, usando os dados de John Snow.

DESENVOLVIMENTO

Para este artigo, utilizaremos, além do software R, os pacotes “Maptools”, que nos permite ler dados em formato shapefile (formato usado para disponibilizar os dados vetoriais – tanto de casos de morte por cólera, quanto das localizações das fontes de água, utilizado por John Snow), “Spatstat”, que nos permite fazer algumas análises espaciais, e “Rgdal”, que nos permite usar dados matriciais georreferenciados.

#habilitando os pacotes espaciais no R
library(spatstat)
library(maptools)
library(rgdal)

A primeira etapa é importar todos os dados para o R. Para isso, utilizaremos as funções “readShapePoints”, para a importação dos dados vetoriais e “readGDAL” para a importação dos dados matriciais. Para podermos fazer algumas análises espaciais com o pacote “spatstat”, precisaremos transformar os dados importados do shapefile para o formato utilizado pelo pacote. Como analisaremos dados espaciais de um processo pontual, o modelo a ser utilizado é o chamado “ppp”, referente à “Poisson Point Pattern”. E isso pode ser feito através

#Lendo os dados vetoriais .shp
colera<-readShapePoints("Cholera_Deaths")
pumps<-readShapePoints("Pumps")
#Lendo o dado matricial .tif
raster<-raster("OSMap.tif")
#Transformando o dado obtido do shapefile em objeto "ppp"
# para análise estatística
colera_ppp<-as.ppp(colera)

Com os dados vetoriais no formato necessário, podemos analisá-los estatisticamente. A primeira análise proposta é a de identificar o padrão de distribuição dos casos de morte por cólera. Tal análise pode ser feita através da função K, também conhecida através do nome de seu criador: “Ripley’s function”.

A função K é uma das funções mais conhecidas e utilizadas na análise exploratória de processos espaciais pontuais. Ao analisarmos o padrão de distribuição dos casos de cólera, através dela, partimos do pressuposto teórico da distribuição espacial completamente aleatória, ou em inglês “Complete Spatial Ramdoness – CSR”. Ou seja, a nossa hipótese nula será a de que os registros de cólera se dão aleatoriamente no espaço.

Para testarmos esta hipótese, faremos uma simulação de m processos pontuais aleatórios no espaço com a mesma intensidade inferida dos dados observados para, então podemos contrastá-los que, aliás é uma forma de identificar o intervalo de confiança para tal análise6.

A função K é, então, definida matematicamente por:

FuncaoK onde,

“n”, é o número de eventos;

“a”, é a área de estudo;

“r”, é o raio de avaliação de vizinhança;

dijÉ a distância entre os pontos i e j ;

indicadorak é a função indicadora – igual a 1, se a distância entre os pontos for igual ou menor que “r” ou 0, se oposto;

eec é a correção de borda;

Além de testar a hipótese nula, a função K permite, ainda identificar a tendência de agrupamento ou regularidade da distribuição observada, onde a tendência de agrupamento é apresentado quando valor é superior aos valores encontrados para as simulações, e a tendência de regularidade é dado quando são inferiores.

#Analise do padrão de distribuição dos casos de cólera
# pela função L (K transformada)
plot(envelope(as.ppp(colera_ppp, fun=Lest, nsim=99)),
 main="Função L")

O resultado obtido pela função k é apresentada na figura 2, onde pode-se inferir, 2% de nível de confiança, que as mortes por cólera não se dão de forma aleatória no espaço, apresentando então, um padrão de distribuição aglomerado. No gráfico, a linha (linha contínua preta) é o valor K calculado para os registros de cólera observados. A linha tracejada vermelha apresenta os valores de , ou seja, os valores de K para conjunto de dados segundo o modelo teórico da completa aleatoriedade espacial. Já a faixa em cinza representa os valores de K obtidos pela simulação de 99 processos espacialmente aleatórios, tanto superior , quanto inferior , nos permitindo rejeitar com 2% de nível de confiança, a hipótese nula.

Imagem

Figura 2: gráfico da função K para os dados espaciais de mortes por cólera e 99 simulações espacialmente aleatórias no espaço.

Pode-se perceber pelo análise da função K que os dados indicam a tendência de distribuição aglomerada, com desvio significativo da hipótese nula.

Uma vez sabendo estatisticamente, o padrão de distribuição das mortes por cólera no Soho, ainda falta entender como se dá o relacionamento entre os casos observados e as fontes de água. Essa relação poderia ser facilmente inferida a partir de simples mapas, como o utilizado pelo próprio médico ou, por exemplo, o apresentado na figura 3, onde a simbologia dos casos de cólera considera a quantidade de mortes, e a localização das bombas de água.

Imagem

Figura 3: Mapas dos casos de morte por cólera e a localização das bombas de água, no bairro do Soho, Inglaterra, em 1854.

Outra possibilidade é fazer o calculo da densidade de Kernel para os casos de morte por cólera, sobrepondo-os às localizações das bombas de água. O cálculo da densidade de Kernel analisa a intensidade de casos por unidade de área, e é muito utilizada em diferentes estudos. Contudo, esta função possui alguns elementos básicos em sua definição que devem ser cuidadosamente atentados.

Um desses casos é a largura de banda, ou em inglês, “bandwidth”. Segundo diversos pesquisadores (BAILEY e GATREL, 1992; WALLER e GOTWAY, 2004), esse elemento chega a ser mais relevante no resultado final do que a função Kernel utilizada, uma vez que ao utilizar as diferentes funções com uma mesma largura de banda, produz-se resultados muito próximos ao passo que, uma única função Kernel com diferentes larguras de bandas produzem resultados significativamente diferentes.

Para facilitar o entendimento, podemos dizer que a largura de banda é o suavizador da densidade. Ao definirmos uma largura de banda alta, o resultado terá a tendência de continuidade da densidade, enquanto que, quando definimos uma largura de banda com menor valor, a tendência é de descontinuidade. A função de Kernel é definida por:

kernel

(BIVAND, PEBESMA e RUBIO, 2008)


#Mapa densidade Kernel
par(mar=c(0,0,0,-0.1), xpd=TRUE)
plot(colera_ppp$window, main="Densidade de mortes por cólera", axes=TRUE)
plot(density(colera_ppp, sigma=bw.diggle), add=TRUE)
plot(pumps_ppp, pch=19, col="black",add=TRUE)
legend(529160, 181306, 
c("Fonte de Água", "Densidade:", "Alta", "Média", "Baixa"),
pch=c(19, 16, 22, 22, 22), col=c("black", "transparent", "black","black","black"),
 pt.bg=c("green", "blue", "yellow"), bg=c("white"))
grid()

Uma vez estimada a densidade Kernel (figura 4) de casos de morte por cólera e sobrepondo-o às localizações das fontes de água, fica evidente que há maior densidade de contaminação nas proximidades de uma determinada fonte.

Densidade_final

Figura 4: Densidade de Kernel das mortes por cólera com a localização das bombas de abastecimento de água.

CONSIDERAÇÕES FINAIS

E justamente foi essa a ideia do médico John Snow. A partir do mapeamento e da análise espacial, pôde atuar diretamente na fonte do surto de cólera. Ao tratar a bomba de água contaminada, consegui-se controlar e reverter o quadro de cólera no bairro.

Espero que este artigo tenha contribuindo ao propor outras possíveis abordagens para um dos casos mais famosos de análise espacial. Como dito anteriormente, não pretendeu-se, aqui, propor a melhor forma, mas sim, apresentar uma nova possibilidade usando uma das novas tecnologias que dispomos nos dias atuais. Quem sabe, sirva de inspiração para outros profissionais, principalmente da área de saúde, a dar continuidade a trabalhos como o apresentados. Até a próxima.

REFERÊNCIAS

BAILEY e GATREL: BAILEY, Trevor C. e GATRELL, Antony C., Interactive Spatial Data Analysis, 1995

BIVAND, PEBESMA e RUBIO: BIVAND, R.S.; PEBESMA, E.J.; RUBIO, V.G., Applied Spatial Data Analysis With R., 2008

CÂMARA e CARVALHO: CÂMARA, G.; CARVALHO, M.S., Análise Espacial de Eventos., 2005

GATTRELL et al.: GATTRELL, An.C, BAILEY T.C., DIGGLE, P.J., ROWLINGSONT, B.S, Spatial Point Patter Analysis and Its Application in Geographical Epidemology, 1996

WALLER e GOTWAY: WALLER, Lance A. e GOTWAY Carol A., Applied Spatial Statistics for Public Health Data, 2004

1 http://www.johnsnowsociety.org/

2 http://blog.rtwilson.com/

Anúncios

Sobre Felipe Barros

Geógrafo formado pela PUC-Rio, é mestre em Biodiversidade pelo Jardim Botânico do Rio de Janeiro e especialista em analise ambiental e gestão do território pela ENCE/IBGE. Trabalha com softwares livres de análise espacial, banco de dados e sensoriamento remoto.
Esse post foi publicado em Analise Espacial e marcado , , , . Guardar link permanente.

3 respostas para Mapa de John Snow revisitado

  1. Pingback: Sugestão de leitura | Görgens, E. B.

  2. Glayson disse:

    Como eu poderia adquirir os dados para testar o script?

  3. Oi, Glayson. Desculpe a demora em responder. No blog citado no artigo há como baixar os dados: http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/

    Abs
    Felipe

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s