Python之category-encoders:category-encoders库的简介、安装、使用方法之详细攻略


友好
友好 2022-09-19 11:35:23 51363
分类专栏: 资讯

Python之category-encoders:category-encoders库的简介、安装、使用方法之详细攻略

目录

category-encoders库的简介

1、支持15种不同编码

category-encoders库的安装

category-encoders库的使用方法

1、一个无监督的例子

2、一个有监督的例子


category-encoders库的简介

           一组scikit-learn风格的转换器,用不同的技术将类别变量编码成数字。一组scikit-learn风格的转换器,用不同的技术将分类变量编码成数字。虽然序数编码、单热编码和散列编码在现有scikit-learn版本中具有类似的等价性,但这个库中的变形金刚都有一些有用的特性:

  • 对pandas数据文件作为输入(可选作为输出)的一流支持
  • 可以显式配置数据中的哪些列按名称或索引编码,或推断非数字列,而不管输入类型
  • 可以根据训练集随意删除任何方差很低的列吗
  • 可移植性:培训数据转换器,pickle它,以后重用它,然后得到同样的东西。
  • 完全兼容sklearn管道,输入一个类似数组的数据集,像任何其他转换器

1、支持15种不同编码

  1. Backward Difference Coding
  2. BaseN
  3. Binary
  4. CatBoost Encoder
  5. Count Encoder
  6. Generalized Linear Mixed Model Encoder
  7. Hashing
  8. Helmert Coding
  9. James-Stein Encoder
  10. Leave One Out
  11. M-estimate
  12. One Hot
  13. Ordinal
  14. Polynomial Coding
  15. Sum Coding
  16. Target Encoder
  17. Weight of Evidence
  18. Wrappers

文档http://contrib.scikit-learn.org/category_encoders/

category-encoders库的安装

pip install category-encoders

category-encoders库的使用方法

        有两种类型的编码器:无监督和有监督的。

1、一个无监督的例子

  1. from category_encoders import *
  2. import pandas as pd
  3. from sklearn.datasets import load_boston
  4. prepare some data
  5. bunch = load_boston()
  6. y = bunch.target
  7. X = pd.DataFrame(bunch.data, columns=bunch.feature_names)
  8. use binary encoding to encode two categorical features
  9. enc = BinaryEncoder(cols=['CHAS', 'RAD']).fit(X)
  10. transform the dataset
  11. numeric_dataset = enc.transform(X)

2、一个有监督的例子

  1. from category_encoders import *
  2. import pandas as pd
  3. from sklearn.datasets import load_boston
  4. prepare some data
  5. bunch = load_boston()
  6. y_train = bunch.target[0:250]
  7. y_test = bunch.target[250:506]
  8. X_train = pd.DataFrame(bunch.data[0:250], columns=bunch.feature_names)
  9. X_test = pd.DataFrame(bunch.data[250:506], columns=bunch.feature_names)
  10. use target encoding to encode two categorical features
  11. enc = TargetEncoder(cols=['CHAS', 'RAD'])
  12. transform the datasets
  13. training_numeric_dataset = enc.fit_transform(X_train, y_train)
  14. testing_numeric_dataset = enc.transform(X_test)
文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树预备知识Python简介123796 人正在系统学习中

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=2098
赞同 0
评论 0 条
友好L0
粉丝 0 发表 10 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2941
【软件正版化】软件正版化工作要点  2860
统信UOS试玩黑神话:悟空  2819
信刻光盘安全隔离与信息交换系统  2712
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1246
grub引导程序无法找到指定设备和分区  1213
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  163
点击报名 | 京东2025校招进校行程预告  162
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  160
华为纯血鸿蒙正式版9月底见!但Mate 70的内情还得接着挖...  157
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!