Mateus Stewart, Investigador Doutorado
Mateus Stewart, Investigador Doutorado

Siga

21 de Fevereiro de 2019 · 6 min de leitura

neste artigo, eu gostaria de compartilhar minha experiência na busca de uma carreira de pesquisa em ciência de dados durante os últimos 18 meses.

Esta é a minha primeira Média post, então eu gostaria de oferecer algumas informações sobre mim e minhas experiências anteriores. Eu sou um estudante de engenharia ambiental e ciência computacional de Harvard Ph. D., e também uma parte-time machine learning e blockchain consultant for Critical Future, uma empresa de consultoria baseada no Reino Unido especializada em Inteligência artificial. Minha pesquisa está focada na implementação de aprendizagem de máquina e inteligência artificial para a ciência ambiental, usando drones, baseada em sistemas de sensores que são capazes de movimento inteligente para mapear a composição química da atmosfera inferior, principalmente na Floresta Amazônica (para as pessoas interessadas nesse projeto, vou postar artigos separados sobre isso num futuro próximo).

iniciei o meu Ph. D. na Universidade de Harvard no outono de 2017, saindo diretamente de um programa combinado de bacharel e Mestrado em engenharia mecânica do Imperial College London, com meu último ano feito no exterior na Universidade Nacional de Singapura. Durante minha graduação, eu tive pouca exposição à ciência dos dados ou às estatísticas em geral, mas tive grande exposição à codificação na forma de Matlab, C, E Visual Basic e também tinha uma forte base matemática.

Antes de começar em Harvard, eu nunca tinha codificado em Python, e eu nunca tinha ouvido falar de R. Eu nunca tinha feito qualquer computação paralela, construído um aglomerado, e aprendizagem de máquinas e inteligência artificial eram coisas que eu normalmente só tinha ouvido falar de romances e filmes distópicos.Juntar — se a um programa em Harvard com um foco em ciência de dados e aprendizagem de máquinas com tão pouco fundo foi como subir a face de um penhasco, fisicamente cansativo e bastante precário-embora isto seja Harvard, afinal de contas, então dificilmente se pode esperar menos. O programa de Ph. D. em Harvard requer que você tenha 10 aulas, tipicamente 8 das quais são de nível de graduação. Você é livre para tomar isso em seu próprio ritmo, mas deve terminá-los antes de se formar, o que em média leva 5 anos. Recomenda-se que os estudantes terminem todas as suas aulas nos primeiros dois anos, após o que lhes é permitido obter de passagem o seu mestrado (tecnicamente gratuito). No final do semestre da Primavera de 2019, terei cumprido estes requisitos e recolherei o meu diploma, após o que me concentrarei apenas na investigação.

In Fall 2018, the first-ever cohort of the Data Science Master’s Degree Program was matriculated at Harvard. Este é um programa de 2 anos que consiste de uma classe de ciência de dados, uma classe de ética, bem como Matemática Aplicada, ciência da computação e Estatística/econometria eletivas. Tendo chegado um ano antes de todos estes alunos, serei um dos primeiros alunos a completar os principais pré-requisitos para este programa, dando-me uma perspectiva única sobre a eficácia de um curso de ciência dos dados.

nos últimos 18 meses, eu tive uma ampla gama de classes. Um dos primeiros foi o CS205.: Computação paralela, onde eu aprendi a codificar em Linux e construir clusters de computação que eram capazes de fornecer um speedup linear para cálculos de matriz, culminando em um projeto final que envolvia computação paralela em Python com Ask em um cluster de Kubernetes.

ao mesmo tempo, eu tomei AM207: computação científica avançada, que é oferecida pela Harvard Extension School (e assim qualquer um pode se inscrever nesta classe). Esta classe focou-se nas estatísticas Bayesianas e sua implementação na aprendizagem de máquinas, que envolveu inúmeras horas de simulação da cadeia Markov de Monte Carlo (MCMC), trabalhando com o teorema de Bayes, e até mesmo envolveu assistir a um pequeno vídeo do Superman make time go backward para demonstrar o conceito de reversibilidade do tempo na aprendizagem de máquinas.

as outras classes principais são AC209a, que se concentra em uma base de aprendizagem de máquinas e tópicos de ciência dos dados. Eu diria que isso é o que a maioria dos indivíduos pensa quando alguém diz as palavras Ciência dos dados ou aprendizagem de máquina. Envolve aprender como realizar a análise de dados exploratórios e executar regressores e classificadores sklearn. A maioria da classe se concentra em entender esses métodos e como melhor otimizá-los para um determinado conjunto de dados (há um pouco mais do que fazer modelo.fit (X_train, y_train)…). A outra classe é AC209b: Tópicos Avançados em Ciência dos dados, que é uma extensão da primeira classe. Isto é essencialmente ciência de dados sobre esteróides, onde as primeiras palestras começam em modelos aditivos generalizados e criando curvas bonitas para descrever conjuntos de dados. No entanto, ele rapidamente escalou para a execução de 2.500 modelos usando ask em paralelo em um aglomerado de Kubernetes, tentando executar a otimização do hiperparametro em uma rede neural artificial de 100 camadas. Na verdade, isso nem foi a coisa mais difícil que fizemos, isso aconteceu durante apenas a terceira semana de palestras, para colocá-lo em perspectiva.

outras classes que eu tenho tomado ao longo do caminho incluem CS181: aprendizagem de máquinas, que vai para a matemática da regressão, classificação, aprendizagem de reforço, e outras áreas usando ambos os enquadramentos freqüentista e Bayesiano; AM205: Scientific Methods for Solving Differential Equations, as well as AM225: Advanced Methods for Solving Partial Differential Equations. Há uma infinidade de outras classes eu também poderia ter tomado, e eu posso tomar durante o resto do meu tempo na universidade de Harvard, a fim de aprofundar o meu conhecimento, tais como CS207: Desenvolvimento de Sistemas para a Ciência Computacional, AM231: Teoria da Decisão, ou AM221: Otimização Avançada. Devo também esclarecer, cada uma dessas classes teve um projeto final que eu pude adicionar ao meu portfólio de trabalho.Agora vamos ao ponto atual deste artigo-depois de todo este tempo eu passei aprendendo a ser um bom cientista de dados, valeu a pena? Ou poderia tê-lo feito sozinha? Mais especificamente, vale a pena alguém que quer prosseguir isso como uma carreira para investir 1-2 anos e mais de US $ 100.000 em obter um diploma em ciência dos dados?

eu argumentaria que tudo o que eu aprendi durante estes últimos 18 meses de aulas de ciência dos dados eu poderia ter aprendido lendo livros, assistindo vídeos on-line e folheando através da documentação para diferentes pacotes de software. No entanto, não há dúvida em minha mente de que obter um diploma em ciência de dados aceleraria a carreira de alguém como cientista de dados e também lhes daria uma experiência valiosa trabalhando com projetos de ciência de dados reais que podem ser discutidos em entrevistas e usados em um portfólio. Pessoalmente, eu teria levado anos para descobrir como otimizar uma rede neural de 100 camadas correndo em um cluster paralelo na nuvem do Google se eu estivesse apenas sentado em casa assistindo vídeos do Youtube-eu nem poderia imaginar fazê-lo.

ser curioso sobre a ciência dos dados é uma grande coisa e eu gostaria que mais pessoas se sentissem assim. Desde o advento da explosão da Informação, parece que os dados se tornarão a religião do novo mundo na próxima década, e então é inevitável que o mundo precisará de muito mais cientistas de dados. No entanto, a curiosidade só pode levá-lo até certo ponto e ter um pedaço de papel que mostra que você levou tempo para investir na obtenção das habilidades e bons hábitos de um cientista de dados verdadeiramente qualificado irá colocá-lo à parte do resto. Há muito mais na ciência da Informação do que apenas participar em competições de Kaggle como algumas pessoas parecem pensar.

meu conselho para alguém que quer perseguir a ciência dos dados seria obter uma boa base em estatística e matemática e ganhar alguma experiência em codificação — especialmente em linguagens como Python, R, E também com Linux. A maioria dos alunos nas aulas de ciência dos dados que eu vi parecem lutar com os aspectos relacionados com a Ciência da computação, tais como a execução de contêineres de Docker e a criação e gestão de aglomerados distribuídos rodando em alguma infra-estrutura de nuvem. Um monte de habilidades difíceis precisam ser dominadas para se tornar um cientista de dados proficiente, e eu certamente não afirmaria ser um especialista eu mesmo. No entanto, tendo passado por esta experiência, sinto-me suficientemente confiante para poder partir e continuar a desenvolver as minhas próprias competências em matéria de ciência dos dados e de aprendizagem das máquinas, bem como aplicá-las a projectos e investigação relacionados com a indústria sem o receio de fazer “má ciência”.Se você está interessado em ver como é uma aula de ciência dos dados, eu recomendo olhar para as aulas on-line oferecidas pelas universidades que muitas vezes podem ser usadas para ganhar créditos para obter um diploma lá. Há um estudante em Harvard agora que teve 3 aulas de ciência dos dados através da Escola de extensão e ele agora tem um diploma em ciência computacional e engenharia e é um dos assistentes de ensino para a classe de ciência dos dados avançados. Tudo é possível!