Pular para o conteúdo principal

Cientista de dados: que profissão é essa?


*Este artigo foi originalmente publicado em 27/01/16 e seu conteúdo foi atualizado e estendido em 03/07/2017

Processar, analisar, perceber. O Data Scientist, ou cientista de dados em português, é um profissional que ainda está em plena descoberta. Tanto do mercado, quanto de si mesmo.

Não basta dominar as ferramentas de análise de Big Data ou ser especialista na gestão de estatísticas complexas. É preciso mais.

O que fazer com o volume e a variedade de dados? O que eles significam? Como analisá-los em tempo real? O que isso pode gerar de negócios, conhecimento, melhorias, transformações? Todas essas perguntas apontam para o cientista de dados.

E ainda é preciso tomar cuidado com a autoestima exagerada que ronda o mercado: muitos acham que têm esse perfil, mas não é bem assim. E eles não estão fazendo análise de dados, mas apenas amontoando essas informações. 

Siga o futuro


Ainda em 2012 a Gartner, uma das maiores empresas de consultoria do mundo, já anunciava: o Brasil precisará de 500 mil pessoas capacitadas para trabalhar com Big Data. É a ponta de lança para os profissionais mais corajosos em desbravar um campo ainda em construção.

São vagas para um profissional que precisa estar capacitado, tanto para usar as ferramentas que se desenvolvem à velocidade da luz, quanto para ter a noção do todo, do global, transformando em soluções os números e dados espalhados pelo mundo.
Qual é a formação do cientista de dados?

O cientista de dados não precisa ter sido criado e nascido na Tecnologia da Informação. No filme O Jogo da imitação (2014), vencedor de melhor roteiro adaptado do Oscar 2015, matemáticos, estatísticos e linguistas tentam quebrar o código da Enigma, máquina que criava o sistema de informação nazista.

Foi preciso uma equipe multidisciplinar para entender o que os números e dados recebidos diariamente diziam. É assim com a análise de dados. Geógrafos, estatísticos, cientistas sociais, jornalistas e também o cientista da computação são as muitas mãos que movem esse caldo denso de informações.

Contudo, é claro que certas formações, como Estatística, Ciência da Computação, Matemática e Ciências Econômicas pavimentam melhor o caminho de quem deseja se tornar um cientista de dados.

Habilidades necessárias


Para conseguir extrair valor dos dados e gerar insights que realmente impactem nos resultados de negócio, o cientista de dados precisa reunir habilidades tanto técnicas quanto de negócio. Eis algumas delas:

Data storytelling


O cientista de dados precisa ser um bom contador de histórias – isso mesmo! Os números e dados, por si só, não dizem nada. São um amontoado de informações que só fazem sentido quando conectadas e amparadas por conhecimento. É uma história com começo, meio e fim que dirá o que é tendência, o que é provável, o que é possível.

Essa habilidade de transformar dados em elementos para narrativas visuais tem nome: data storytelling. Ela é essencial para que os insights gerados pela análise de dados tornem-se ações concretas de negócio.

Lembre-se que, na maioria das vezes, o “público” para o qual serão apresentados os resultados de um trabalho de Data Science não é composto de profissionais de TI ou desenvolvedores, por exemplo, mas de gestores de negócio que têm pouca familiaridade com termos técnicos.

Caso eles não entendam e/ou não enxerguem valor no que está sendo mostrado, dificilmente serão tomadas decisões a partir dos insights, por maior que seja seu potencial de business. Por isso, quanto mais visualizações e menos números, melhor.

Em seu blog, a OkCupid conta histórias muito interessantes por meio de data storytelling, como já mostramos neste artigo.

Data mining


Data mining, ou mineração de dados, é o processo de descobrir informações relevantes em grandes quantidades de dados armazenados, estruturados ou disponíveis em qualquer outro tipo de “depósito”. É um passo essencial para se adquirir conhecimento sobre a concorrência ou o seu próprio negócio ou produto.

Machine learning


Machine learning (ou aprendizado de máquina) refere-se a algoritmos e técnicas por meio dos quais os sistemas “aprendem”, de maneira autônoma, com cada uma das tarefas que realizam. Dessa forma, podemos dizer que o computador aperfeiçoa seu desempenho em determinada tarefa a cada vez que ela é realizada.

A capacidade de entender os diferentes modelos de aprendizado de máquina, quando e como utilizá-los com dados reais e mostrar o valor dos seus resultados é uma habilidade essencial de um data scientist.

É interessante acrescentar que machine learning já apresenta acurácia melhor que a humana em algumas tarefas. Temos como bons exemplos a Inteligência Artificial Carnegie Mellon, que venceu jogadores profissionais de Poker, e a IA AlphaGo, da Google, que superou o melhor jogador de Go do mundo.

Data preparation


Data preparation é o processo de coletar, limpar, normalizar, combinar, estruturar e organizar dados para análise. Ele é o passo inicial (e fundamental) para que o trabalho com Big Data seja bem-sucedido, uma vez que aumenta a qualidade dos dados – e, consequentemente, dos resultados com data mining. Dados “pobres”, de qualidade ruim, geram resultados incorretos e não-confiáveis ao fim do processo de uso das tecnologias de Data Science.

Interpretação contextual dos insights


E depois que tudo está analisado? E depois de saber o sexo, a cor, os hábitos deste ou daquele consumidor – de produtos ou de ideias? Destacamos aqui outra característica de quem trabalha com Big Data: a tomada de decisão. Contemplar os dados e ir além deles, traçando estratégias e conseguindo mostrar, com dados de experimentos de testes AB, por exemplo, que executar uma ação de forma diferente é melhor do que o processo atual.

Aqui entra também o conhecimento de negócio e compreensão contextual do cientista de dados, necessários para que os insumos gerados estejam alinhados tanto com a realidade da empresa quanto com a do mercado.

Ferramentas, linguagens e bibliotecas

Algumas das principais ferramentas que o cientista de dados usará em seu dia a dia para “desbravar” dados são:
  • Hadoop;
  • Pig;
  • Hive;
  • Spark;
  • MapReduce.

Quanto às linguagens de programação, é importante que o data scientist domine:
  • Python;
  • R;
  • SQL;
  • Scala.

Já em relação às bibliotecas de machine learning e deep learning que o cientista de dados tem à disposição para consulta, podemos citar:
  • Scikit (ML);
  • TensorFlow (DL);
  • Pytorch (DL);
  • Keras (DL);
  • Caffe (DL).

Obtendo qualificação

Há várias opções para quem deseja se qualificar em Data Science. Diplomas e certificados de pós-graduação fornecem estrutura, estágios, redes e qualificações acadêmicas reconhecidas para o seu currículo. Em contrapartida, essa alternativa exige também grande investimento de tempo e dinheiro.

Cursos online são mais baratos (isso quando não são gratuitos), curtos e direcionados. Eles dão ao aluno a praticidade e comodidade de serem feitos e finalizados no tempo dele. Contudo, esta opção requer organização, disciplina e autogestão por parte do aluno, para que seja bem feita.

Fonte: bigdatabusiness

Comentários

Postagens mais visitadas deste blog

No filme o Livro de Eli, o personagem principal é cego?

Acho que o filme vale a pena, não só pela excelente fotografia, mas por alguns outros pontos. Eli pode ser cego sim. Ainda vou assistir mais uma vez o filme para confirmar, mas alguns detalhes são importantes para serem notados:
1) Cegos geralmente usam óculos de sol, portanto o fato de todo mundo usar, esconde um pouco o fato de ele usar.
2) Nem todos os cegos tem olhos do mesmo jeito. Se ele não for completamente cego, ele é o suficiente para ter que aprender Braile
3) Ele não olha para o sol e sim o sente em sua face.
4) Ele não encherga que a bateria de seu iPod está acabando? pq fica batendo nele?
5) Vai para o escuro lutar com os primeiros bandidos. Uma tremenda vantagem para quem é cego. Técnica muito usada pelo super-herói Demolidor.
6) Só atira qdo ouve de onde vem o tiro. Se ninguém atirar ele não revida.
7) Ele mata um passaro pelo som. É forçado ele acertar tudo, mas isso é para deixar a gente confuso.
Pois bem, só assisti uma vez, mas vou confirmar isso tudo na segunda. Acho qu…

Dica de configuração do CURA usando PLA

Essas são as configurações que eu fiz em minha impressora ANET A8 para imprimir no PLA.

Criei 2 perfis, um com média qualidade (0,2mm) e outro com alta qualidade (0,1mm).

Média Qualidade



 Alta Qualidade

Suporte para Notebook com tubos de PVC

Fonte: http://tecnicolinux.blogspot.com.br