5 coisas que eu gostaria de saber quando comecei a aprender ciência de dados

Insights que aprendi ao longo de minha jornada na ciência de dados até agora

Há dois anos, venho estudando conceitos de ciência de dados por conta própria e, por meio dessa jornada, ganhei muitos insights que quero compartilhar com novos cientistas de dados que estão começando.

Sinta-se à vontade para pegar o que quiser com este artigo, mas estou simplesmente compartilhando minha opinião para aqueles que estão um pouco perdidos e gostariam de mais orientações. Com isso dito, aqui estão minhas 5 COISAS QUE EU QUERO SABER quando comecei a aprender ciência de dados:

1). Tente ser um bom programador e um bom estatístico antes de ser um bom cientista de dados.

Se você leu meus artigos mais antigos, provavelmente já me ouviu dizer isso – um cientista de dados é realmente um estatístico moderno que alavanca a programação para implementar métodos estatísticos.

Compreender os fundamentos tornará sua vida muito mais fácil e realmente economizará seu tempo no longo prazo. Quase todos os conceitos e algoritmos de aprendizado de máquina são baseados em estatísticas e probabilidade e, além disso, muitos outros conceitos de ciência de dados, como testes A / B, também são puramente estatísticos.

Em última análise, o quão bom você é como cientista de dados é limitado pelo seu conhecimento em programação e estatística.

Tenha uma boa base de programação e estatística antes de aprender qualquer outra coisa. Isso vai economizar muito mais tempo a longo prazo.

2). Gaste menos tempo em bootcamps online e mais tempo em projetos de ciência de dados pessoais.

Eu sei que esta pode ser uma declaração controversa para alguns de vocês, então deixe-me começar dizendo algumas coisas:

Isso é inteiramente baseado em minhas evidências anedóticas, bem como em minhas observações de meus colegas.

Obviamente, há alguns cursos / bootcamps on-line incríveis que não estão incluídos em minha declaração generalizada, como os cursos do deeplearning.ai.

Também quero dizer que é melhor você fazer um bootcamp se a alternativa não for nada.

Dito isso, aqui estão vários problemas com bootcamps online.

Eles tendem a ser muito superficiais em termos de profundidade do material, e não apenas isso, mas também tendem a dar uma falsa sensação de compreensão do material que foi aprendido.

Eles também tendem a não ser muito bons para reter informações. Acho que você pode concordar que quanto mais tempo você gasta estudando um assunto, maior a probabilidade de reter informações. O problema com esses bootcamps, especialmente aqueles que são anunciados como “se tornando um especialista em 5 semanas”, é que eles não estão lhe dando tempo suficiente para realmente mergulhar no que você está aprendendo.

Por último, eles geralmente tendem a não ser desafiadores o suficiente. Muitos bootcamps e cursos simplesmente pedem que você acompanhe e copie seu código, o que não exige que você pense criticamente e em profundidade.

Por que você deve trabalhar em projetos de ciência de dados pessoais.

Projetos de ciência de dados pessoais são uma ótima maneira de aprender, porque você será forçado a pensar criticamente sobre o problema e a solução por conta própria.

Com isso, você aprenderá muito mais do que qualquer bootcamp pode lhe ensinar. Você aprenderá como fazer as perguntas certas, como fazer as perguntas certas no Google, como abordar um projeto de ciência de dados que funciona para você, como ser metódico, etc …

Ao investir mais em seu próprio projeto, você também se sentirá mais motivado para aprender mais e investir mais tempo, criando um ciclo de feedback positivo.

Gaste menos tempo fazendo bootcamps de ciência de dados e mais tempo trabalhando em projetos de ciência de dados pessoais.

3). Concentre-se em algumas ferramentas selecionadas e seja realmente bom nelas.

Existem tantos pacotes e ferramentas de ciência de dados por aí, e isso é legal porque você pode personalizar seu kit de ferramentas de ciência de dados de uma maneira que funcione para você.

No entanto, é fácil se deixar levar por querer aprender o máximo de pacotes e ferramentas possíveis. Não cometa esse erro.

Você ficará muito melhor sendo extremamente fluente em algumas ferramentas do que arranhando a superfície com várias ferramentas que mal gastou tempo usando. (Ter uma longa lista de habilidades e ferramentas em seu currículo não deve ser o objetivo final!)

Para dar um exemplo, existem vários pacotes excelentes de visualização de dados por aí: Matplotlib, Seaborn, Plotly, Bokeh, etc … Não há necessidade de perder tempo tentando dominar cada um deles – é um desperdício de seu precioso e limitado tempo.

Outro exemplo, se você quiser manipular dados com o Pandas, seja muito bom com o Pandas. Se você é mais o tipo de cara do NumPy, vá em frente. Sim, idealmente você gostaria de ser bom em Pandas e NumPy, mas meu ponto é que provavelmente é uma boa ideia manter um e dominá-lo, em vez de ficar pulando constantemente.

A mesma coisa acontece com …

Python vs R

Tensorflow vs Pytorch

Postgresql vs MySQL

A lista continua…

Estabeleça seu kit de ferramentas de ciência de dados e cumpra-o! Dominar 5 ferramentas é melhor do que mal saber como usar 20 ferramentas.

4). Compreender os vários algoritmos de aprendizado de máquina existentes representa apenas uma pequena porcentagem da ciência de dados.

Pessoalmente, o que me levou à ciência de dados foram todos os diferentes modelos de aprendizado de máquina, como funcionavam e em quais aplicativos eram úteis. Provavelmente, passei pelo menos seis meses aprendendo e experimentando vários modelos de aprendizado de máquina (machine learning), apenas para perceber que tornou uma fração do que um cientista de dados precisa saber.

A modelagem de dados é apenas uma parte de todo o ciclo de vida do aprendizado de máquina. Há coleta de dados, preparação de dados, avaliação de modelo, implantação de modelo e ajuste de modelo que você também precisa entender. Na verdade, eu diria que a maior parte do tempo é gasta na preparação de dados, NÃO na modelagem de dados (modelagem de aprendizado de máquina).

Além disso, há várias outras coisas que você terá que aprender, como controle de versão (Git), extração de dados de APIs, compreensão da nuvem e a lista continua.

Não gaste todo o seu tempo tentando dominar todos os algoritmos de aprendizado de máquina. Ele representa apenas uma pequena porcentagem do que um cientista de dados precisa saber.

5) Como um Cientista de Dados, é comum sentir a Síndrome do Impostor.

Desde o primeiro dia, quando comecei a aprender ciência de dados, e até hoje, experimento a Síndrome do Impostor regularmente. Mas aprendi que isso é completamente normal.

Por que é comum e normal que cientistas de dados sintam a síndrome do impostor?

“Ciência de dados” é um termo muito vago, pois é um campo interdisciplinar que inclui estatística, programação, matemática, compreensão de negócios, engenharia de dados, etc. E além disso, existem tantos sinônimos para um cientista de dados (analista de dados, engenheiro de dados, cientista pesquisador, cientista aplicado). O que quero dizer é que você nunca será um especialista em TUDO que a ciência de dados abrange, e você não deve sentir que precisa ser.

Como tudo o mais em programação e tecnologia, a ciência de dados está em constante evolução, 20 anos atrás, o Pandas nem mesmo foi criado. Tensorflow foi lançado apenas 5 anos atrás. Sempre haverá novas tecnologias surgindo e, portanto, novas coisas que você terá que aprender.

Isso se relaciona com o meu primeiro ponto, mas como você provavelmente não será um especialista em TUDO, isso significa que sempre haverá alguém melhor nas coisas nas quais você gasta menos tempo. E tudo bem também.

Obrigado pela leitura!

Ao ler isso, espero ter sido capaz de fornecer alguns insights e conselhos úteis que ajudarão a esclarecer alguns dos equívocos que você tem e também tornar sua jornada de ciência de dados muito mais tranquila do que a minha!

Recebi um feedback muito bom para meus artigos de ciência de dados mais opinativos, e é por isso que escrevi isso. Como sempre, leve isso com cautela se você discordar de algo que eu disse. Mas se você gostou, por favor me diga sobre o que mais você gostaria que eu escrevesse.

Desejo a vocês o melhor em sua jornada de ciência de dados, como sempre!

Terence Shin – Terence S

Cientista de dados | Criador de conteúdo | MSc Analytics e estudante de MBA |

Vocês já conhecem nossos cursos?

Não?

Então, clique aqui: https://inlagsacademy.com.br/minha-conta/

 

 

 

Compartilhe em suas Redes Sociais