No século XVI, os registros diários dos movimentos
dos planetas e do sol, feitos pela equipe do astrônomo Thyco Brahe,
poderiam ser considerados um problema de bigdata, que exigiu novos
instrumentos e métodos de coleta e registro da informação. A coleção de
registros acurados de Brahe ajudaram Copérnico a demonstrar com precisão
a teoria heliocêntrica de Kepler. Para a época, o trabalho de execução,
correção e revisão dos cálculos do movimento de cada planeta era um
desfio que poucas pessoas poderiam realizar. Hoje, estudantes de ensino
médio podem ver essas simulações em uma única aula com auxilio da
computação. Os censos são outro exemplo de problema relativo de bigdata.
Além da dificuldade logística da coleta de dados, principalmente em um
país com a dimensão do Brasil, o censo apresenta também a dificuldade de
processamento das informações. Em uma época em que não havia nenhum meio
computacional ou mesmo mecânico de tabulação dos resultados, como no
censo Geral do Império de , quando tudo era feito à bico de pena, o
recenseamento dos 10 112 061 habitantes do país foi um grande desafio.
Os dez anos de intervalo entre os censos eram necessários não só pelo
custo, mas pelo tempo adequado para que fossem tabulados todos os
resultados. Em 2010, o recenseamento de 190 milhões de habitantes já não
pode ser considerado um problema de bigdata para o . Todos os dados do
censo 2010 podem ser baixados e rodados em um computador comum. O
Facebook, com seus estimados 500 Tera bytes de, é um exemplo de desafio
de atual de bigdata. Muitos recursos especiais de hardware e software
são necessários para garantir as quase 3 bilhões de curtidas e 300
milhões de fotos que são compartilhadas pelo Facebook a cada 24 horas.
O tamanho do problema bigdata
Segundo avaliação da empresa , em 2020, o mundo havia criado e replicado
cerca de 64,2 Zettabytes de dados, enquanto a capacidade de
armazenamento mundial naquele ano foi prevista como sendo de 6,7
Zettabytes. Como isso é possível? Apenas 10% dos dados criados são
armazenados. Os 90% restantes acabam tendo uma existência fugaz.
Desaparecem para dar espaço aos novos dados. Essa tendência deve
continuar para os próximos anos, o IDC estima que o crescimento da
capacidade de armazenamento terá um ritmo bem menor do que o crescimento
da capacidade de geração de dados, sobretudo com a popularização da
Internet das coisas. Os desafios para lidar com a disparidade entre o
volume de informações produzidas pela humanidade e estratégias de
armazenamento, recuperação e análise de todo esse conteúdo, tem sido um
dos impulsionadores da inovação em métodos e técnicas desde a
antiguidade.
Um zettabyte equivale a 1.000.000.000.000.000.000.000 de bytes ou um
trilhão de gigabytes.
Bigdata: o anúncio da era dos dados sem ciência
No ano de 2008, a revista norte-americana , publicou um artigo do seu
prestigiado editor chefe, . O artigo tinha um título provocativo: ”The
end of theory: the data deluge makes the scientific method obsolete” (”O
fim da teoria: o dilúvio de dados que tornou o método científico
obsoleto”) e alcançou um grande público, que difundiu o termo bigdata
entre influenciadores, jornalistas, empresários, profissionais de
marketing, coachs e consumidores do mundo digital. Em seu artigo,
Anderson costurou argumentos aparentemente lógicos que deram
visibilidade para uma crença que já estava sendo difundida entre
usuários e desenvolvedores da emergente ciência dos dados: a ciência
está nos dados e não no pensamento. O artigo começa com uma paráfrase do
estatístico George Box: ””. Logo, quanto mais dados, mais ciência!
Teorias seriam argumentos usados apenas para cobrir de forma imperfeita
a falta ou a insuficiência de dados. Segundo, Anderson, no século XXI, a
abundância dos dados tornava desnecessárias hipóteses, modelos e
explicações causais. Muitos profissionais de ciência dos dados,
marketing e computação, trabalhando em empresas, viam (e muitos ainda
veem) os pré-requisitos da pesquisa científica, incluindo a estatística,
como formalismo acadêmico desnecessário ao trabalho prático. Por
exemplo, um analista de dados, trabalhando em uma loja de departamento,
para fornecer resultados para o pessoal de marketing sobre quais as
características de um produto são mais pesquisadas entre grupos etários
de usuários, não precisaria ”testar hipóteses estatísticas” ou recorrer
a nenhum tipo de conceito ”teórico” de consumidor. Bastaria rodar todos
os dados (supondo que a loja de departamento tivesse o equipamento
adequado para atender a capacidade de processamento exigida) que um
padrão válido sobre o comportamento dos consumidores se apresentaria
como resultado. A proposição de Anderson não era simplista, mas
representava uma tendência que ajudou em disseminar a crença ingênua de
que quanto mais dados, mais corretas estão as repostas. Os computadores
com alta capacidade de processamento e armazenamento de dados poderiam
encontrar padrões de correlação entre as informações. Se os dados forem
suficientemente grandes, essas correlações seriam significativas,
tornando desnecessários conceitos e testes estatísticos. Difundiu-se a
ideia de que o bigdata tornava obsoleto o conhecimento científico (e
acadêmico) acumulado até então. A nova ciência precisaria apenas da
abundância de dados do mundo digitalizado e muita capacidade de
processamento.
O volume de dados por si só não é uma garantia de que um estudo sobre
qualquer fenômeno possa estar correto. Não é o bigdata que estabelece a
cientificidade de um procedimento analítico.
Passado o deslumbre inicial com a avalanche de dados que disseminou o
bigdata, proposições como a de Anderson passaram a ter sérios críticos
entre os analistas e profissionais da área. O volume de dados não é
suficiente para garantir um explicação correta sobre qualquer fenômeno
da realidade. Podemos tomar como exemplo o caso de Thyco Brahe e a
revolução que possibilitou que o heliocentrismo de Copérnico e Kepler
pudessem suplantar séculos de pensamento centrado na Terra como centro
do universo, chamado de modelo geocêntrico. Thyco Brahe não concordava
com a teoria de Copérnico. Era um estudioso da obra de Ptolomeu e
defendia o geocentrismo. No século III, Ptolomeu expôs no seu Almagesto
vários elementos de matemática e astronomia, entre os quais um modelo
que explicava o movimento dos planetas a partir de uma série de círculos
concêntricos. A obra foi uma das principais referências científicas
desde o fim do Império Romano até o fim da idade. Foi lida e estudada
tanto na Europa cristã, quanto no mundo islâmico (de onde vem o nome
Almagesto, corruptela latina da tradução em árabe, cujo título original
em grego significa ”A grande coleção”).
-
O movimento dos planetas sempre desafiou a compreensão humana.
- Ao se observar o céu noturno, as estrelas parecem seguir em uma mesma
direção
-
Desde que os povos começaram a olhar para o céu de forma mais
sistemática, provavelmente para marcar as mudanças nas estações, muitas
explicações foram tentadas para explicar o movimento dos planetas. Visto
da terra, parece que todos os corpos celestes seguem uma direção, como
um conjunto coordenado de movimentos. Exceto pelos planetas (palavra que
em grego significa um ”errante”), que percorrem trajetórias diferentes.
Marte, por exemplo, parece reverter o seu movimento, voltando no céu em
relação às demais estrelas, para em seguida seguir seu caminho adiante.
Aristóteles, no século IV AC, propôs uma teoria para explicar os
movimentos dos corpos celestes. Para o pensador grego, todos os corpos
possuíam um tipo de movimento natural. Na Terra, o movimento natural
seria retilíneo para cima (leviandade) ou para baixo (gravidade).
Qualquer movimento diferente só poderia ser causado por intervenção de
uma força externa. No céu seria diferente. Os corpos celestes seriam
feitos de uma matéria própria, chamada por ele de Éter, cujo movimento
natural seria circular. A Terra seria o centro do universo e estaria em
repouso, todo o resto estaria se movendo em torna da Terra. A teoria do
geocentrismo não é o mesmo que ” terraplanismo”. No século IV AC, os
gregos já sabiam que a Terra era esférica e já até haviam calculado com
certa precisão o seu diâmetro. Aristóteles sabia que a posição das
constelações variava quando vistas de regiões diferentes. Aristóteles
misturou suas impressões sobre a realidade com valores filosóficos e
morais, como a ideia de que o universo é imutável e perfeito. Sua
explicação física do movimento dos corpos celestes demoram quase dois
séculos para serem refutados, na medida em seus argumentos foram
incorporados primeiro pelo islamismo e posteriormente pelo cristianismo,
sustentando o postulado da imutabilidade e perfeição da criação divina.
Os planetas desafiavam a ideia de perfeição do universo aristotélico, se
pareciam com corpos que vagueavam pelo céu sem uma explicação lógica.
Coube ao astrônomo grego, Cláudio Ptolomeu, na cidade de Alexandria no
Egito do século II DC, propor uma teoria sistêmica do movimento
planetário a partir da concepção de órbitas excêntricas, o que, de certa
forma, contrariava a ideia de perfeição do movimento circular dos corpos
no éter, tal como formulada por Aristóteles. A teoria geocêntrica de
Ptolomeu foi escrita em um grande tratado, que ficou conhecido no
ocidente como Almagesto.
- Epicentros de .
O modelo geocêntrico de Ptolomeu sistematizava grandes avanços nos
conhecimentos em matemática e geometria, conseguia explicar o chamado
movimento retrógrado dos planetas e apresentava soluções lógicas para o
movimento do sol ao redor da Terra e outros problemas de astronomia da
época. No entanto, era um modelo equivocado sobre o movimento dos corpos
celestes. Conforme a citação do estatístico George Box, esse seria um
exemplo de modelo útil, porém errado.
Mais de mil anos depois do Almagesto ter sido escrito, grandes
astrônomos, como Tycho Brahe, ainda utilizavam intensivamente o livro
escrito por Ptolomeu como texto de referência e autoridade intelectual
para explicar os movimentos dos corpos celestes. A teoria geocêntrica
estava de acordo com a doutrina das Igrejas cristãs e mulçumanas, que
colocavam o ser humano como centro da criação divina.
- Observatório astronômico criado por Tycho Brahe em 1576, com o suporte
de Frederico II, Rei da Dinamarca.
Em seu Observatório, Brahe criou vários instrumentos para medir com o
máximo rigor possível a posição das estrelas e planetas, anotando com
sua equipe, cuidadosamente todos os movimentos celestes observados. Um
dos objetivos era fornecer dados suficientemente apurados para corrigir
as imprecisões do Almagesto de Ptolomeu. Enquanto Tycho Brahe trabalhava
em seu Observatório na Dinamarca, o debate na Europa sobre
heliocentrismo e geocentrismo percorria alguns círculos intelectuais da
época. A proposição sobre o modelo que tinha o Sol como centro do
movimento da Terra e dos planetas era tratada como conjectura
filosófica, não como hipótese alternativa, dado que contrariava os
postulados bíblicos, que deveriam ser a única fonte de autoridade em
disputas argumentativas. Mas, desde meados do século XVI, o modelo
heliocêntrico contava com uma fundamentação lógica e matemática, graças
ao astrônomo e matemático polonês, Nicolau Copérnico, autor do livro ”As
Revoluções dos Orbes Celestes”. Copérnico não foi o primeiro a propor o
modelo heliocêntrico. Antes até de Aristóteles, Pitágoras já postulava
que a Terra se movia em torno de um ”fogo central”. Para a seita
Pitagórica, o fogo era o elemento primordial do Universo, logo, nada
mais natural do que tudo estar ao redor de uma grande fogueira espacial.
No modelo de Pitágoras, o Sol era apenas mais um astro a rodear o ”fogo
central”. Aristarco, também grego, no século III AC, usando os
conhecimentos de geometria da época, calculou o diâmetro da Terra e
propôs, por suas projeções, que o Sol seria sete vezes maior do que a
Terra. Com base nessa informação, Aristarco concluiu que seria mais
lógico o objeto menor, no caso a Terra, girar ao redor do objeto maior,
o Sol. A novidade de Copérnico não estava na proposição de que a Terra
girasse ao redor do Sol, mas na construção de um modelo que conseguia
responder as mesmas indagações que levaram ao modelo ptolomaico, como o
movimento retrógrado dos planetas, ao mesmo tempo que apresentava
solução para os problemas não respondidos ou criados pelo modelo do
Almagesto.
-
Tycho Brahe concordava com a tese de Ptolomeu e discordava da ideia de
Copérnico. O seu trabalho minucioso de coleta de dados, que poderia ser
considerado um desfio de bigdata para aquele tempo, pretendia confirmar
e dar mais precisão ao modelo geocêntrico. Um de seus auxiliares, o
alemão Johannes Kepler, após a morte de Tycho, compilou os dados e
utilizou-os para construir um modelo heliocêntrico mais apurado do que o
Copérnico, prevendo as órbitas elípticas e não circulares dos planetas
ao redor do Sol. Ao contrário da citação de George Box, o modelo de
Kepler foi útil e correto ao mesmo tempo, pois representava de fato o
movimento planetário, que, agora no século XXI, pode ser confirmado com
várias outras fontes de dados e observações espaciais. Tycho Brahe
poderia ter coletando mais dados, caso talvez tivesse mais tempo e
recursos, e isso, muito provavelmente, não o faria trocar sua concepção
geocentrista pelo modelo heliocêntrico. Copérnico não dispunha dos dados
de Tycho Brahe, quando formulou seu modelo de órbitas circulares dos
planetas ao redor do Sol.
- Johanes Kepler
O oposto ao bigdata, a presunção de uma ciência sem dados!
Os dados são desnecessários?
Se Baher trabalhou tanto para construir uma coleção minuciosa de dados
sobre o movimento dos planetas e ainda acreditava na teoria incorreta do
geocentrismo, e Copérnico, antes dos dados de Tycho Baher, já havia
criado o modelo heliocêntrico correto, então pode-se concluir que os
dados são desnecessários para o avanço do conhecimento humano? A
resposta certamente é não, os dados não são dispensáveis. O oposto da
proposição de que os dados são suficientes para o entendimento dos
fenômenos (e dispensam a ciência) está na visão ingênua de que a
genialidade humana provém do pensamento que se isola da realidade. O
conhecimento requer pensamento, observação e fundamentação dos
argumentos baseados em evidências. Não há ciência sem dados, assim como
os dados, independente do volume, não são explicativos por si só,
dependem de modelos (teóricos) que explique as relações causais, os
mecanismos e os processos a partir do qual os fenômenos se originam.
- O Pensador no Portão do Inferno de Rodin, .
As pessoas não são como os planetas!
- Gráfico de Análise de Redes Sociais usado para estudar a complexidade
das relações sociais
As pessoas não são planetas e o movimento da sociedade não pode ser
comparado ao movimento sincronizado dos corpos celestes no céu. Embora o
método das ciências da natureza sejam distintos em grande parte das
ciências sociais, em essência, a construção de modelos teóricos
fundamentados em evidências é também a chave explicativa dos processos
de mudança social. Diante de um fenômeno social, o pensamento formula
conjecturas para responder problemas. Quando as conjecturas conseguem
ser sistematizadas se constituem em modelos teóricos (hipotéticos). A
busca das evidências (dados) constitui-se no caminho (método) para
sustentar ou refutar o modelo teórico explicativo do fenômeno em estudo.
Os dados podem ter erros, muitos dos quais são corrigíveis. O erro
incorrigível é a falta de dados.
Do ponto de vista metodológico, temos nossa capacidade de pensamento e
de observação para formularmos conclusões plausíveis e verificáveis
sobre os problemas que nos instigam a imaginação ou nos cobram
providências práticas. Se optarmos por fazer ciência, seja qual ramos do
conhecimento for, estamos optando por buscar explicações fundamentadas
em evidências. As evidências devem ser buscadas em fenômenos, isto é,
manifestações concretas da realidade. O entendimento um fenômeno ocorre
quando há uma explicação demonstrável para sua manifestação. A
manifestação ocorre quando o fenômeno é passível de ser observável e
descrito no tempo e no espaço. A explicação demonstrável ocorre quando
se consegue tornar aparentes as interconexões entre os fatos ou eventos
que tornam possível a manifestação do fenômeno. A compreensão ocorre
quando, tendo havido o entendimento de um fenômeno, é possível conhecer
as suas implicações. A explicação que se sustenta na autoridade de
argumentos ou em fenômenos não demonstráveis, no melhor dos casos, pode
ser considerado como uma hipótese a ser investigada. Se não for tomada
como hipótese será um dogma. E um dogma é uma postura anticientífica,
que se nutre do negacionismo da realidade, independente do bigdata
disponível, como o mundo pode testemunhar recentemente com a pandemia de
Covid -19.
.
- O termo bigdata não deve ser usado como um argumento de autoridade.
- Não é o volume de dados que vai garantir a cientificidade do seu
trabalho, nem tampouco a veracidade ou a credibilidade dos seus
resultados.
- Com um modelo inadequado, qualquer quantidade de dados apresentará
respostas errôneas ou inconclusas.
- Entre nenhum dado e muitos dados, o que uma pesquisa precisa é de
dados representativos, adequados ao problema de pesquisa e
metodicamente revistos e escrutinados.
- Os dados devem representar acuradamente um fenômeno que se quer
estudar. Para isso, precisam ser construídos dentro de um escopo
lógico articulado a um modelo causal metodicamente elaborado.
Sugestões de leitura