Loading AI tools
alto volume, velocidade e variedade de informação que exigem tecnologia e métodos analíticos específicos para sua transformação em valor Da Wikipédia, a enciclopédia livre
Big data (macrodados,[1] megadados, ou grandes dados em português)[2] é a área do conhecimento que estuda como tratar, analisar e obter informações a partir de conjuntos de dados muito grandes. O termo big data surgiu em 1997,[3] e foi inicialmente utilizado para nomear conjuntos de dados não ordenados em rápido crescimento. Nas últimas décadas, os conjuntos de dados têm crescido de forma exponencial.[carece de fontes]
Foram assinalados vários problemas nesta página ou se(c)ção:
|
Com o aparecimento da Internet, a quantidade de dados disponíveis aumentou abruptamente: da "era" do terabyte para o petabyte,[4][5] e a desde 2015, a era do zettabyte.[6] Atualmente são gerados mais de 2,5 quintilhões de bytes diariamente.[7] Pela sua presença nas relações econômicas e sociais, representou uma evolução nos sistemas de mercado e na ciência.[5] As ferramentas que fazem uso de big data são de grande importância, por exemplo, para definir estratégias de marketing, aumentar a produtividade, reduzir custos e tomar melhores decisões.[8]
Um dos pontos essenciais do conceito de big data é o fato de ter sido capaz de gerar valor para empresas e para o mercado.[9] No que diz respeito à ciência, o surgimento de big data levou à criação de um novo paradigma (4° paradigma), concebendo um novo método para ampliar as fronteiras do conhecimento. Graças às novas tecnologias, é possível recolher, manipular, analisar e exibir dados com mais eficácia, aumentando o valor agregado das análises geradas.[10]
Big data é um termo recente e, por isso, não existe na maior parte dos dicionários de estatística. São dados multivariados e de elevada dimensão, geralmente criados em tempo real, e apresentam um crescimento exponencial (na escala temporal), nomeados de megadados.[11]
Quanto mais dados são gerados, maior é o esforço para extrair informações.[9] Os centros de dados tiveram que aprender a lidar com o crescimento exponencial de dados gerados e desenvolver ferramentas que fossem para além de bancos de dados relacionais e sistemas paralelos de bancos de dados.[5] Sendo assim, a velocidade para obter a informação faz parte do sucesso que o big data pode proporcionar em sua empresa.[9] O conceito de big data foi definido inicialmente por 3'V,[9] mas a literatura mostrou que seu conceito pode ser expandido para 5'V,[12] representados pelos seguintes conceitos:[9]
O termo big data tem um conceito relativo, já que seu tamanho depende de quem está usando os dados.[16] Neste contexto, o primeiro relato sobre uso de estatísticas para obter informações de grandes quantidades de dados data de 1663. Nesse ano, John Graunt utilizou uma grande quantidade de informações, de diferentes fontes, para estudar a epidemia da peste bubônica na Europa. Para Graunt, sua quantidade de dados poderia ser considerada big data[17]
O uso dos primeiros equipamentos para processar dados são de 1890, durante a realização do Censo dos Estados Unidos, conduzido pelo U.S. Census Bureau.[18] Na ocasião, a Máquina de Tabulação diminuiu o tempo de processamento dos dados para apenas seis semanas.[19] Entretanto, somente no século XX que começaram a surgir os primeiros sistemas para armazenamento de informações. Em 1927, o engenheiro Fritz Pfleumer criou um método para guardar informações em fitas magnéticas.[16]
Durante a Segunda Guerra Mundial, foi criada a primeira máquina digital de processamento de dados. Foi em 1943, quando os britânicos desenvolveram um sistema para decifrar códigos nazistas durante a Segunda Guerra Mundial. O nome da máquina era Colossus, que podia interceptar mensagens a uma taxa de 5000 caracteres por segundo.[20] O primeiro órgão público criado especificamente para o processamento de dados, a Agência Nacional de Segurança (NSA) dos EUA, foi fundado em 1952, com o objetivo de processar dados automaticamente para obter informações relativas a inteligência durante a Guerra Fria.[21]
Um dos primeiros Centros de Dados foi criado em 1965, também pelo governo americano, com o objetivo de controlar o pagamento de impostos e as impressões digitais dos americanos.[20] Esse Centro de Dados possuía o mesmo padrão dos bancos de dados criados até a década de 1970. Eram bancos de dados centralizados, onde uma mesma máquina era responsável pelo uso, armazenamento e análise dos dados.[5] Com o aumento da quantidade de dados, começaram a surgir novas arquiteturas de dados que permitissem processar e analisar esses dados. Na década de 80, começaram a surgir os Sistemas de Bancos de Dados Paralelos.[22] Nesse caso, ao invés de um banco de dados centralizado, cada processador se comunica com os outros apenas enviando mensagens através de uma rede interconectada. Os primeiros bancos de dados paralelos possibilitaram a criação do primeiro banco de dados com capacidade em terabytes, pela KMART, em 1986.[5]
Em 1989, o cientista britânico Tim Berners-Lee criou o World Wide Web, para facilitar a troca de informações entre as pessoas. O que Tim Berners-Lee não sabia era que sua invenção iria revolucionar a forma como os dados eram gerados e a quantidade de dados criados.[23] A criação da Web 2.0 ajudou no aumento dos dados.[20] O termo big data foi usado pela primeira vez em 1997.[3] Entretanto, o nome começou a ser usado oficialmente em 2005, quando Roger Mougalas, da O’Reilly Media, publicou um artigo mencionando o tema.[24]
Evolução Tecnológica de Armazenamento e Processamento
Os dados que agregam o conjunto do big data são provenientes de várias fontes. Desta maneira, normalmente não apresenta uma estrutura bem definida, ou seja, não pode ser armazenada nos sistemas padrões de banco de dados, como o Sistema Gerenciador de Banco de Dados Relacional (SGBDR), onde os dados são representados por meio de tabelas, com diversas linhas e colunas.[25] Os cientistas de dados começaram a verificar que bancos de dados relacionais não conseguiriam suportar essa grande quantidade de dados não estruturados. Desta maneira, novas tecnologias e processos tiveram que ser desenvolvidos para permitir que esses dados não estruturados fossem analisados, já que os mesmos podem representar até 80% do total de dados.[26] Foi quando a Google criou o MapReduce, em 2004,[27] que é um modelo de programação que permite processar grandes quantidades de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes, geralmente executado em um cluster de computadores.[28]
Posteriormente, foi desenvolvido o Hadoop, que é uma implementação em código aberto do MapReduce.[29] O Hadoop foi criado pelo Yahoo em 2005, e pode ser considerado uma das maiores invenções de data management desde o modelo relacional.[30] Entretanto, o Hadoop não é considerado uma base de dados como o SGBDR. Ele é um sistema de distribuição de arquivos utilizado para processar e armazenar uma grande quantidade de dados (big data) por meio de clusters,[25] onde os mesmos são processados paralelamente; e podendo ser executados em servidores sem muito esforço.[29] Atualmente, esse tipo de processamento é o mais utilizado por empresas que trabalham com big data; e diversas empresas vêm contribuindo com código para seu desenvolvimento, como a Yahoo, Facebook, Cloudera, IBM e outras.[30]
Segundo a IBM, em 2008 foram produzidos cerca de 2,5 quintilhões de bytes todos os dias; e surpreendentemente 90% dos dados no mundo foram criados nos últimos dois anos, decorrente à adesão das grandes empresas à internet, como por exemplo as redes sociais, dados dos GPS, dispositivos embutidos e móveis, dentre outros.[31] Atualmente, a Internet das Coisas mudou a forma como os dados são gerados, aumentando de forma abrupta a quantidade destes.[5] Todos esses objetos físicos da Internet das Coisas são capazes de coletar e transmitir dados, gerando dados não estruturados que não podem ser armazenados e processados por bancos de dados comuns.
As oportunidades de trabalho na área de estatística estão aumentando graças à proliferação de programas para análise de dados e seu uso, especialmente, na tomada de decisão com objetivos estratégicos como: políticas de governo, seleção de investimentos, gestão de empresas e negócios, etc. O big data permite trabalhar com grandes volumes de dados, por vezes, não aceites pelos grandes programas estatísticos. No Brasil existe a profissão de Estatístico, regulamentada pelo Decreto Federal nº 62497 de 1968[32]. Este profissional é treinado para trabalhar com estruturas de dados, em seu manuseio para extração de informação estratégica, nos métodos estatísticos de análise e em programação para sua análise estatística, de modo a se obter conclusões com margens de erro controladas para a tomada de decisões com base nos dados disponíveis. A IBM criou a Big Data University, que fornece certo conhecimento do big data. Existem na Internet, sites que oferecem plataformas de ensino à distância, comummente conhecidas como MOOCs, com cursos nas áreas de big data e de ciência de dados (Data Science, no original em inglês), nos quais pode-se estudar o seu conteúdo de forma gratuita ou pagar pelo certificado do curso.
Os mais conhecidos são os sites do Coursera, Udacity e o EDX.org, este último, fruto de parceria entre as universidades americanas de Harvard e do MIT e empresas do Vale do Silício. No Brasil, o mercado para a área é promissor, sendo que muitas renomadas Universidades passaram a oferecer cursos de pós-graduação e MBAs ligados à área de big data, variando em sua maioria no tamanho da carga horária destinada à parte de negócios, componente importante na formação deste profissional, que precisará ter além das habilidades técnicas, a capacidade de apresentar as conclusões de suas análises e insights para um público leigo de forma simples, de forma a gerar valor para o negócio da empresa.
Abaixo, é possível apontar quatro áreas de atuação do cientista de dados e os domínios necessários na era do big data:[33]
Um estudo do Instituto IDC mostrou que diversos setores da sociedade estão investindo em big data[34], indicando que foram investidos mais de US$ 16,6 bilhões em 2014 para atividades do setor. Este mesmo estudo afirma que a expectativa é que este valor atinja, em 2018, o valor de US$ 41,5 bilhões. As instituições estão investindo em big data por observarem da interferência dos custos, das consequências que pode haver para o futuro do negócio. O objetivo por trás do big data é melhorar a prestação de informações aos gestores, fazendo com que haja um suporte na tomada de decisões – com dados reais e precisos[35]. A seguir serão apresentadas algumas aplicações de big data, em diferentes setores:
A massificação de dados, no entanto, ainda enfrenta obstáculos. O maior deles seria a privacidade, ou seja, a ameaça à privacidade representada pelo aumento de armazenamento e integração de informações pessoalmente identificáveis. Se a recomendação de links patrocinados pelo Google já parece invasiva à maioria das pessoas, o mundo e a legislação atual não estão preparadas para as possibilidades que o big data oferece de agregar, analisar e tirar conclusões a partir de dados até então esparsos. Painéis de especialistas lançaram várias recomendações de políticas para adequar a prática às expectativas de privacidade.[49][50][51]
O big data já foi relacionado[52][53] como ferramenta essencial em manipulação de eleições e disseminação de fake news, isso se dá pela capacidade inerente da tecnologia de reunir e segmentar um determinado público alvo, fazendo com que campanhas de marketing sejam muito mais efetivas e impactantes, isso faz do big data uma metodologia questionável do ponto de vista ético, uma vez que pode ser usado para manipular massas e obter resultados parciais de acordo com a motivação dos especialistas.
Big data tem sido usado no policiamento e vigilância por instituições como as autoridades policiais e corporações[54]. Devido à natureza menos visível da vigilância baseada em dados em comparação aos métodos tradicionais de policiamento, é menos provável que surjam objeções ao policiamento de big data. De acordo com o Big Data Surveillance: The Case of Policing,[55] de Sarah Brayne, o policiamento de big data pode reproduzir as desigualdades sociais existentes de três maneiras:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.