![]() |
|
||||
![]() Diga adeus às planilhas do Excel e tenha 100% de controle sobre suas contas a pagar e a receber, gestão de receitas e despesas, cadastro de clientes e fornecedores com fotos e histórico de atendimentos. Código fonte completo e funcional, com instruções para instalação e configuração do banco de dados MySQL. Fácil de modificar e adicionar novas funcionalidades. Clique aqui e saiba mais |
Você está aqui: Data Science ::: Materiais de Estudo e Suporte ::: Amostras de Dados (Toy Samples, Data Samples) |
Data Science - Dataset de empréstimos para prática de análise de dados, limpeza, classificação e visualizaçãoQuantidade de visualizações: 1358 vezes |
Uma das maiores dificuldades do estudante e praticante de Data Science e Machine Learning é encontrar datasets simples e fáceis de entender, mas que retratam situações do mundo real. Para isso preparamos um dataset que representa uma base de dados de empréstimos concedidos e não concedidos do Banco XYZ. Este dataset possui a seguinte estrutura: |
id | nome | idade | sexo | renda | valor | parc | pont | ap |
---|---|---|---|---|---|---|---|---|
1 | HELENA535 | 47 | F | 10200 | 2000 | 24 | 95 | S |
2 | ANITA971 | 47 | F | 7300 | 8000 | 12 | 44 | S |
3 | RODRIGO126 | 60 | M | 2200 | 2500 | 48 | 33 | S |
4 | PEDRO415 | 78 | M | 4000 | 500 | 50 | 71 | S |
5 | LAURA923 | 67 | F | 6500 | 20000 | 6 | 94 | N |
6 | LUCAS583 | 56 | M | 2200 | 50000 | 48 | 43 | N |
7 | CARLOS827 | 45 | M | 7300 | 31000 | 6 | 86 | N |
8 | VIRGINIA910 | 88 | F | 6500 | 20000 | 24 | 47 | N |
9 | ALINE669 | 53 | F | 800 | 500 | 12 | 12 | N |
10 | JESSICA787 | 62 | F | 3000 | 1500 | 30 | 8 | N |
Antes de prosseguirmos, clique aqui e baixe uma amostra de 100 registros desse dataset, em formato CSV (campos separados por ponto-e-vírgula). Mais abaixo mostramos como você pode ajustar a amostra. Note que o dataset possui os seguintes campos: id - Inteiro auto-incremento representando o id do empréstimo. Este campo não interfere na análise dos dados (Data Science) nem no treinamento e teste do modelo (Machine Learning) e pode ser omitido. nome - Este campo só é útil quando submetemos uma nova amostra de dados para testarmos o aprendizado do modelo (Machine Learning). Pode ser omitido na análise preliminar dos dados e também no treinamento do modelo. idade - Campo inteiro muito importante. O Banco XYZ só empresta dinheiro para clientes com idade maior ou igual a 20 e menor ou igual a 80. sexo - Este campo só é interessante para Data Science. Para Machine Learning ele não possui nenhuma utilidade, visto que seu valor não interfere no empréstimo sendo aprovado ou não. renda - Campo muito importante tanto para Data Science quando Machine Learning. A aprovação do empréstimo depende da renda do cliente. valor - Valor do empréstimo. Campo muito importante para a análise dos dados e também para treinamento do modelo (Machine Learning). parc - Quantidade de parcelas do empréstimo. Este campo interfere na aprovação do empréstimo. O Banco XYZ só permite empréstimos cujas parcelas não consumam mais que 30% da renda do cliente. pont - Campo inteiro contendo a pontuação do cliente no banco. Esta pontuação é resultado do bom relacionamento entre o cliente e o banco e possui valor que vai de 0 até 100 (incluindo). O Banco XYZ só concede empréstimos a clientes com pontuação igual ou superior a 30. ap - Campo binário indicando se o empréstimo foi concedido ou não. O valor "N" indica aprovado e "N" indica rejeitado. Pronto. Agora que você compreendeu todos os campos da amostra, vamos entender como os parâmetros da URL interfere no formato da amostra gerada: registros=100 - Aqui informamos a quantidade de registros que serão gerados na amostra. O limite mínimo é 1 e o máximo 10.000 registros. nomes=1 - Neste parâmetro nós informamos se o nome do cliente deverá aparecer na amostra. Este campo só é importante para testar a eficácia do treinamento do modelo em Machine Learning. Para Data Analysis e Data Science ele não possui muita relevância. limpo=1 - Indica se os dados da amostra já estarão limpos, ou seja, sem campos vazios ou dados no formato incorreto. O valor 0 permite gerar uma amostra "suja", ideal para o treinamento das técnicas de limpeza dos dados. Pronto. Agora é só baixar a amostra, salvar como .csv e praticar à vontade. |
![]() |
Veja mais Dicas e truques de Data Science |
Dicas e truques de outras linguagens |
Python - Datas e horas em Python - Como obter a hora como um decimal no intervalo 00-12 (formato 12 horas) |
E-Books em PDF |
||||
|
||||
|
||||
Linguagens Mais Populares |
||||
1º lugar: Java |