Este repositório contém todos os materiais de classe para a primavera 2020 da Georgia Tech, CSE 6040, computação para a classe de análise de dados com o Dr. Richard Vuduc . (Como nota lateral, essa foi a melhor aula que já fiz.) Todo o conteúdo está na pasta project_files e é sequenciado para facilitar a navegação. Dentro do project_files , você encontrará a pasta Getting Started . Então, comece aí.
Esta classe é baseada nos notebooks Python 3.7 e Jupyter. Incluí o ambiente virtual que você pode usar com ele. No entanto, pode ser necessário instalar os pacotes necessários de vez em quando, quando você os encontra ao longo do curso. Eu criei o ambiente virtual após o fato.
Você pode ignorar a pasta Scratch Pad . Você não precisa olhar para ele, mas pode encontrar algum código interessante lá e, portanto, por que eu o mantive lá porque quero encontrar esse código se vou procurar.
Outra coisa a observar: alguns conjuntos de dados são maiores que 100 MB e precisam ser armazenados como peças. Portanto, você pode ver que um conjunto de dados é combinado em um único arquivo de vários arquivos e, em seguida, o arquivo combinado é excluído novamente. Isso ocorre devido às limitações do Github.