Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略


哥歌
哥歌 2022-09-19 10:45:55 49399
分类专栏: 资讯

Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

目录

GiveMeSomeCredit数据集的简介

1、数据集基本描述

2、EDA后总结

3、数据集基本形状

Give Me Some Credit数据集的下载

Give Me Some Credit数据集的使用方法


GiveMeSomeCredit数据集的简介

       银行在市场经济中起着至关重要的作用。他们决定谁可以获得资金,以什么条件,可以做出或打破投资决定。要使市场和社会正常运转,个人和企业都需要获得信贷。
       基于Give Me Some Credit数据集,通过预测某人在未来两年内经历财务困境的可能性,改进信用评分的先进水平。信用评分算法,猜测违约的可能性,是银行用来决定是否应该发放贷款的方法。这项竞赛要求参与者通过预测某人在未来两年内遭遇财务困境的可能性,来提高信用评分的技术水平。这项竞赛的目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。该网站提供了25万名借款人的历史数据,奖金总额为5000美元(第一名3000美元,第二名1500美元,第三名500美元)。

Serious

Dlqin

2yrs

Revolving

UtilizationOf

Unsecured

Lines

age

Number

Of

Time

30-59

Days

Past

Due

Not

Worse

DebtRatio

Monthly

Income

Number

OfOpen

Credit

Lines

And

Loans

Number

OfTimes

90Days

Late

Number

Real

Estate

Loans

Or

Lines

NumberOfTime60-89DaysPastDueNotWorseNumberOfDependents
110.7661266094520.8029821299120130602
200.9571510194000.121876201260040001
300.658180143810.085113375304221000
400.2338097763000.036049682330050000
500.90723944910.0249256956358870100
600.2131786827400.375606969350030101
700.3056824655705710NA80300
800.7544636483900.209940017350080000
900.11695064427046NA2000NA
1000.1891690525700.6062909012368490402
1100.6442259623000.30947621250050000
1200.018798125100.53152876650170202
1300.0103518574600.29835407512454130202
1410.9646725554030.3829647471370093112
1500.019656581760477060100
1600.5484580626400.2098917541136270102
1700.0610861187802058NA100200
1800.1662840795300.18827406880070000
1900.2218127714300.527887839328070102
2000.6027944112500.06586826333320000

1、数据集基本描述

Variable Name

Description/EDA

Type

EDA

11

SeriousDlqin2yrs

Person experienced 90 days past due delinquency or worse

逾期90天或更糟

Y/N

Serious Delinquent in 2 year,也就是2年内发生严重逾期,其中”严重“定义为逾期超过90天。
分析:定义为模型的label,一般逾期超过90天以上,客户标记为1(坏客户),其余标记为0(好客户)。例如你2018年1月1号开卡,每个月1号是还款日。例如你2019年4月1号是你的还款日,然后你在7月1号前都没还钱,那这时候逾期就超过90天了,你的数据标签就为1。

本数据集中,大约6%的样本违约。

1

age

Age of borrower in years

借款人年龄(以年为单位)

integer

可知有更多的年轻人违约,而且总体分布似乎还不错

2

MonthlyIncome

Monthly income

月收入

real

存在缺失值,29731(19.82%)

数值分布偏斜,我们可以考虑用中位数进行插补。

我们还可以考虑用正态分布值及其均值和标准差进行插补。

3

NumberOfDependents

Number of dependents in family excluding themselves (spouse, children etc.)

家庭受扶养人数(配偶、子女等除外)

integer

存在缺失值,3924 (2.61%)

我们可以考虑用它的众数进行插补,众数为零。

4

DebtRatio

Monthly debt payments, alimony,living costs divided by monthy gross income

每月的债务支付,赡养费,生活费除以每月的总收入

percentage

2.5%的客户的负债大约是他们所拥有资产的3490倍或更多;

对于月收入在2.5%的人来说,只有185人的月收入值是0或1;

这185人中有164人有两种不同的类型,第一种是没有月收入的人没有违约,第二种是有月收入的人有违约。

5

NumberOfOpenCredit
LinesAndLoans

Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards)

公开贷款(分期付款,如汽车贷款或抵押贷款)和信用额度(如信用卡)

integer

6

NumberRealEstate
LoansOrLines

Number of mortgage and real estate loans including home equity lines of credit

按揭和房地产贷款的数量,包括房屋净值信贷额度

integer

7

RevolvingUtilization
OfUnsecuredLines

Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits

除房地产和汽车贷款等无分期付款债务外,信用卡和个人信用额度余额除以信用额度总和

percentage

定义为所欠款项总额与总信用额度之比率;
分析:值的分布是右偏的,考虑删除离群值;

处理逻辑:预计随着这个值的增加,违约的人的比例也会增加;但是,我们可以看到,由于该列的最小值设置为13,因此违约者的比例小于属于欠款总额不超过总信用额度的客户池的比例。

因此,我们应该删除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的样本。

8

NumberOfTime30-59DaysPastDueNotWorse

Number of times borrower has been 30-59 days past due but no worse in the last 2 years.

借款人逾期30-59天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(13~96)次的样本

9

NumberOfTime60-89DaysPastDueNotWorse

Number of times borrower has been 60-89 days past due but no worse in the last 2 years.

借款人逾期60-89天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(11~96)次的样本

10

NumberOfTimes
90DaysLate

Number of times borrower has been 90 days or more past due.

借款人逾期90天或以上的次数。

integer

有趣的是,不存在逾期(17~96)次的样本
详见EDA分析后总结

2、EDA分析后总结

         通过可视化分析后可知,当NumberOfTimes90DaysLate的值高于17时,有267个样例,其中三个列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特别是96和98。我们可以看到,分别分享96和98的相同值是不符合逻辑的,因为微不足道的计算可以揭示,30天过期96次,一个人在2年的时间跨度内是不可能的

NumberOfTime30-59DaysPastDueNotWorse

NumberOfTime60-89DaysPastDueNotWorse

NumberOfTimes90DaysLate

0     126018

1      16033

2       4598

3       1754

4        747

5        342

6        140

7         54

8         25

9         12

10         4

11         1

12         2

13         1

96         5

98       264

0     142396

1       5731

2       1118

3        318

4        105

5         34

6         16

7          9

8          2

9          1

11         1

96         5

98       264

0     141662

1       5243

2       1555

3        667

4        291

5        131

6         80

7         38

8         21

9         19

10         8

11         5

12         2

13         4

14         2

15         2

17         1

96         5

98       264

3、数据集基本形状

  1. Column Non-Null Count Dtype
  2. --- ------ -------------- -----
  3. 0 Unnamed: 0 150000 non-null int64
  4. 1 SeriousDlqin2yrs 150000 non-null int64
  5. 2 RevolvingUtilizationOfUnsecuredLines 150000 non-null float64
  6. 3 age 150000 non-null int64
  7. 4 NumberOfTime30-59DaysPastDueNotWorse 150000 non-null int64
  8. 5 DebtRatio 150000 non-null float64
  9. 6 MonthlyIncome 120269 non-null float64
  10. 7 NumberOfOpenCreditLinesAndLoans 150000 non-null int64
  11. 8 NumberOfTimes90DaysLate 150000 non-null int64
  12. 9 NumberRealEstateLoansOrLines 150000 non-null int64
  13. 10 NumberOfTime60-89DaysPastDueNotWorse 150000 non-null int64
  14. 11 NumberOfDependents 146076 non-null float64
  15. dtypes: float64(4), int64(8)
  16. memory usage: 13.7 MB

Give Me Some Credit数据集的下载

数据集下载Give Me Some Credit | Kaggle


Give Me Some Credit数据集的使用方法

更新中……

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=1862
赞同 0
评论 0 条
哥歌L0
粉丝 0 发表 9 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2935
【软件正版化】软件正版化工作要点  2854
统信UOS试玩黑神话:悟空  2811
信刻光盘安全隔离与信息交换系统  2702
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1235
grub引导程序无法找到指定设备和分区  1205
点击报名 | 京东2025校招进校行程预告  162
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  160
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  156
华为纯血鸿蒙正式版9月底见!但Mate 70的内情还得接着挖...  154
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!