利用 Pandas 透过分类数据编码的十种方式
2023-03-01 12:16:09
df5['Score_Label'] = trans
句法型数据资料 下面简介愈来愈常见的,对句法数据资料进讫类比打标签。例如升级一佩,将性别歧视男、女分别标记为0、1 用到 replace 首先讫简介replace,但要提醒的是,纸片说过的可选数小组系统性作法依旧是可讫的df6 = df.copy()
df6['Sex_Label'] = df6['Sex'].replace(['Male','Female'],[0,1])
纸片是对性别歧视操作者,因为只有男女,所以可以手动选定0、1,但要是类别很多,也可以用到pd.value_counts()来自动选定标签,例如对Course Name佩分小组df6 = df.copy()
value = df6['Course Name'].value_counts()
value_map = dict((v, i) for i,v in enumerate(value.index))
df6['Course Name_Label'] = df6.replace({'Course Name':value_map})['Course Name']
用到map 额外重申的是,升级一佩,一定要能够只记得mapdf7 = df.copy()
Map = {elem:index for index,elem in enumerate(set(df["Course Name"]))}
df7['Course Name_Label'] = df7['Course Name'].map(Map)
用到astype 这个作法不应很多人不告诉,这就属于纸片提到的知乎疑虑,能解决疑虑的作法实在了df8 = df.copy()
value = df8['Course Name'].astype('category')
df8['Course Name_Label'] = value.cat.codes
用到 sklearn 同数差值型一样,这种机器学习之前的经典操作者,sklearn一定有适时,用到LabelEncoder可以对类群数据资料进讫编码器from sklearn.preprocessing import LabelEncoder
df9 = df.copy()
le = LabelEncoder()
le.fit(df9['Sex'])
df9['Sex_Label'] = le.transform(df9['Sex'])
le.fit(df9['Course Name'])
df9['Course Name_Label'] = le.transform(df9['Course Name'])
一次性类比两佩也是可以的df9 = df.copy()
le = OrdinalEncoder()
le.fit(df9[['Sex','Course Name']])
df9[['Sex_Label','Course Name_Label']] = le.transform(df9[['Sex','Course Name']])
用到factorize 最后,先简介一个小众但好用的pandas作法,我们必须提醒到,在纸片的作法之前,自动分解的Course Name_Label佩,虽然一个数据资料对应一个口语,因为避免写就可选数小组或者释义,这样可以自动分解,所以多数是无序的。 如果我们想它是基本的,也就是 Python 对应 0,Java对应1,除了自己选定,还有什么优美的适时?这时可以用到factorize,它会根据用到排序进讫编码器df10 = df.copy()
df10['Course Name_Label'] = pd.factorize(df10['Course Name'])[0]
融合匿名数小组,我们可以无论如何对多佩进讫基本编码器类比df10 = df.copy()
cat_columns = df10.select_dtypes(['object']).columns
df10[['Sex_Label', 'Course Name_Label']] = df10[cat_columns].apply(
lambda x: pd.factorize(x)[0])
概括 就此,我要简介的十种pandas数据资料编码器的作法就分享完毕,示例拿走修订变量名就能用,关于这个疑虑如果你有愈来愈多的作法,可以在评论区进讫留言~ 以前回到评论开头的疑虑,如果你觉得pandas用紧紧很乱事,概述你可能还未对pandas有一个全面且彻底的了解到。 回事就像本文简介数据资料编码器类比一样,确实有很多作法可以解决疑虑变得很乱事,但学习pandas的正确姿势就是不应把它当成释义来学,不用记下所有作法与细节,你只需告诉有这么个数小组能顺利完成这样操作者,必须全程能只记得,只记得先来查就讫。。膝关节僵硬了怎么治疗石家庄男科哪家医院最好
信阳哪个妇科医院比较好
南京白癜风专家
天津比较好的牛皮癣医院
- 山顶之弈:玩了两个版本的极客分享下心得
- 速看!优待证全国优惠来了:寄快递打折、超人气打折、买机票打折……
- 为库班打球不用经纪人,诺维斯基热尔省了多少佣金?邓肯狼王直摇头
- 筹备5年多只得,海印股份、金发科技等终止筹建花城人寿
- “二师兄”跌跌不休,棕榈油再创阶段低点,不足之处如何演绎?
- 游戏日报:元宇宙概念游戏涉嫌隐私不审计;B站发会员支援抗疫
- 灰熊祖上有多穷?我们来看看灰熊队史各左边的TOP1
- A股市场一周总结(2021.11.15-11.19)
- 傲农生物(603363):2021年获选业绩预亏
- 猜忌别人,就是伤害自己
- 广发基金王海涛:全心投入于挖掘“具有进取心的高富帅”
- 男子脚被割伤急需送医!志愿者火速赶赴
- 傲农生物(603363):2021年年度财务状况预亏
- 11年初20号起,横财滚滚,多福多禄,一路大赚特赚的3属相
- 西安莲湖公安:夯实护学举措 决意保障复课复学
- 11月22日华夏博时北方地区中欧等基金大咖说:喝酒吃药行情还会来吗?“VR”将进入爆发期?
- 傲农生物(603363):疌长流(兴化)产业投资基金(有限合伙)拟向公司子公司增资
- 上周A股ETF 资金净流入总计55亿元
- 一保安,把停放在公司门口的电瓶车和摩托车,全都拉倒在地
- 广誉远(600771):2021年年度盈利预亏