Ofereço ajuda em Java, C/C++, Python, C#, LISP, AutoLisp, AutoCAD
+55 (062) 98553-6711
Ofereço ajuda em PHP, Python, C#, JavaScript, Laravel, Google Ads e SEO
+55 (062) 98243-1195

Programa de Gestão Financeira Controle de Contas a Pagar e a Receber com Cadastro de Clientes e FornecedoresCódigo-Fonte Software de Gestão Financeira com código fonte em PHP, MySQL, Bootstrap, jQuery - Inclui cadastro de clientes, fornecedores e ticket de atendimento
Diga adeus às planilhas do Excel e tenha 100% de controle sobre suas contas a pagar e a receber, gestão de receitas e despesas, cadastro de clientes e fornecedores com fotos e histórico de atendimentos. Código fonte completo e funcional, com instruções para instalação e configuração do banco de dados MySQL. Fácil de modificar e adicionar novas funcionalidades. Clique aqui e saiba mais
Você está aqui: Data Science ::: Materiais de Estudo e Suporte ::: Amostras de Dados (Toy Samples, Data Samples)

Data Science - Dataset de empréstimos para prática de análise de dados, limpeza, classificação e visualização

Quantidade de visualizações: 1358 vezes
Uma das maiores dificuldades do estudante e praticante de Data Science e Machine Learning é encontrar datasets simples e fáceis de entender, mas que retratam situações do mundo real.

Para isso preparamos um dataset que representa uma base de dados de empréstimos concedidos e não concedidos do Banco XYZ. Este dataset possui a seguinte estrutura:

id nome idade sexo renda valor parc pont ap
1 HELENA535 47 F 10200 2000 24 95 S
2 ANITA971 47 F 7300 8000 12 44 S
3 RODRIGO126 60 M 2200 2500 48 33 S
4 PEDRO415 78 M 4000 500 50 71 S
5 LAURA923 67 F 6500 20000 6 94 N
6 LUCAS583 56 M 2200 50000 48 43 N
7 CARLOS827 45 M 7300 31000 6 86 N
8 VIRGINIA910 88 F 6500 20000 24 47 N
9 ALINE669 53 F 800 500 12 12 N
10 JESSICA787 62 F 3000 1500 30 8 N


Antes de prosseguirmos, clique aqui e baixe uma amostra de 100 registros desse dataset, em formato CSV (campos separados por ponto-e-vírgula). Mais abaixo mostramos como você pode ajustar a amostra.

Note que o dataset possui os seguintes campos:

id - Inteiro auto-incremento representando o id do empréstimo. Este campo não interfere na análise dos dados (Data Science) nem no treinamento e teste do modelo (Machine Learning) e pode ser omitido.

nome - Este campo só é útil quando submetemos uma nova amostra de dados para testarmos o aprendizado do modelo (Machine Learning). Pode ser omitido na análise preliminar dos dados e também no treinamento do modelo.

idade - Campo inteiro muito importante. O Banco XYZ só empresta dinheiro para clientes com idade maior ou igual a 20 e menor ou igual a 80.

sexo - Este campo só é interessante para Data Science. Para Machine Learning ele não possui nenhuma utilidade, visto que seu valor não interfere no empréstimo sendo aprovado ou não.

renda - Campo muito importante tanto para Data Science quando Machine Learning. A aprovação do empréstimo depende da renda do cliente.

valor - Valor do empréstimo. Campo muito importante para a análise dos dados e também para treinamento do modelo (Machine Learning).

parc - Quantidade de parcelas do empréstimo. Este campo interfere na aprovação do empréstimo. O Banco XYZ só permite empréstimos cujas parcelas não consumam mais que 30% da renda do cliente.

pont - Campo inteiro contendo a pontuação do cliente no banco. Esta pontuação é resultado do bom relacionamento entre o cliente e o banco e possui valor que vai de 0 até 100 (incluindo). O Banco XYZ só concede empréstimos a clientes com pontuação igual ou superior a 30.

ap - Campo binário indicando se o empréstimo foi concedido ou não. O valor "N" indica aprovado e "N" indica rejeitado.

Pronto. Agora que você compreendeu todos os campos da amostra, vamos entender como os parâmetros da URL interfere no formato da amostra gerada:

registros=100 - Aqui informamos a quantidade de registros que serão gerados na amostra. O limite mínimo é 1 e o máximo 10.000 registros.

nomes=1 - Neste parâmetro nós informamos se o nome do cliente deverá aparecer na amostra. Este campo só é importante para testar a eficácia do treinamento do modelo em Machine Learning. Para Data Analysis e Data Science ele não possui muita relevância.

limpo=1 - Indica se os dados da amostra já estarão limpos, ou seja, sem campos vazios ou dados no formato incorreto. O valor 0 permite gerar uma amostra "suja", ideal para o treinamento das técnicas de limpeza dos dados.

Pronto. Agora é só baixar a amostra, salvar como .csv e praticar à vontade.

Link para compartilhar na Internet ou com seus amigos:

Veja mais Dicas e truques de Data Science

Dicas e truques de outras linguagens

E-Books em PDF

E-Book 650 Dicas, Truques e Exercícios Resolvidos de Python - PDF com 1.200 páginas
Domine lógica de programação e a linguagem Python com o nosso E-Book 650 Dicas, Truques e Exercícios Exercícios de Python, para você estudar onde e quando quiser.

Este e-book contém dicas, truques e exercícios resolvidos abrangendo os tópicos: Python básico, matemática e estatística, banco de dados, programação dinâmica, strings e caracteres, entrada e saída, estruturas condicionais, vetores e matrizes, funções, laços, recursividade, internet, arquivos e diretórios, programação orientada a objetos e muito mais.
Ver Conteúdo do E-book
E-Book 350 Exercícios Resolvidos de Java - PDF com 500 páginas
Domine lógica de programação e a linguagem Java com o nosso E-Book 350 Exercícios Exercícios de Java, para você estudar onde e quando quiser.

Este e-book contém exercícios resolvidos abrangendo os tópicos: Java básico, matemática e estatística, programação dinâmica, strings e caracteres, entrada e saída, estruturas condicionais, vetores e matrizes, funções, laços, recursividade, internet, arquivos e diretórios, programação orientada a objetos e muito mais.
Ver Conteúdo do E-book

Linguagens Mais Populares

1º lugar: Java
2º lugar: Python
3º lugar: C#
4º lugar: PHP
5º lugar: C
6º lugar: Delphi
7º lugar: JavaScript
8º lugar: C++
9º lugar: VB.NET
10º lugar: Ruby



© 2025 Arquivo de Códigos - Todos os direitos reservados
Neste momento há 30 usuários muito felizes estudando em nosso site.