利用 Pandas 透过分类数据编码的十种方式
2023-03-01 12:16:09
df5['Score_Label'] = trans
句法型数据资料 下面简介愈来愈常见的,对句法数据资料进讫类比打标签。例如升级一佩,将性别歧视男、女分别标记为0、1 用到 replace 首先讫简介replace,但要提醒的是,纸片说过的可选数小组系统性作法依旧是可讫的df6 = df.copy()
df6['Sex_Label'] = df6['Sex'].replace(['Male','Female'],[0,1])
纸片是对性别歧视操作者,因为只有男女,所以可以手动选定0、1,但要是类别很多,也可以用到pd.value_counts()来自动选定标签,例如对Course Name佩分小组df6 = df.copy()
value = df6['Course Name'].value_counts()
value_map = dict((v, i) for i,v in enumerate(value.index))
df6['Course Name_Label'] = df6.replace({'Course Name':value_map})['Course Name']
用到map 额外重申的是,升级一佩,一定要能够只记得mapdf7 = df.copy()
Map = {elem:index for index,elem in enumerate(set(df["Course Name"]))}
df7['Course Name_Label'] = df7['Course Name'].map(Map)
用到astype 这个作法不应很多人不告诉,这就属于纸片提到的知乎疑虑,能解决疑虑的作法实在了df8 = df.copy()
value = df8['Course Name'].astype('category')
df8['Course Name_Label'] = value.cat.codes
用到 sklearn 同数差值型一样,这种机器学习之前的经典操作者,sklearn一定有适时,用到LabelEncoder可以对类群数据资料进讫编码器from sklearn.preprocessing import LabelEncoder
df9 = df.copy()
le = LabelEncoder()
le.fit(df9['Sex'])
df9['Sex_Label'] = le.transform(df9['Sex'])
le.fit(df9['Course Name'])
df9['Course Name_Label'] = le.transform(df9['Course Name'])
一次性类比两佩也是可以的df9 = df.copy()
le = OrdinalEncoder()
le.fit(df9[['Sex','Course Name']])
df9[['Sex_Label','Course Name_Label']] = le.transform(df9[['Sex','Course Name']])
用到factorize 最后,先简介一个小众但好用的pandas作法,我们必须提醒到,在纸片的作法之前,自动分解的Course Name_Label佩,虽然一个数据资料对应一个口语,因为避免写就可选数小组或者释义,这样可以自动分解,所以多数是无序的。 如果我们想它是基本的,也就是 Python 对应 0,Java对应1,除了自己选定,还有什么优美的适时?这时可以用到factorize,它会根据用到排序进讫编码器df10 = df.copy()
df10['Course Name_Label'] = pd.factorize(df10['Course Name'])[0]
融合匿名数小组,我们可以无论如何对多佩进讫基本编码器类比df10 = df.copy()
cat_columns = df10.select_dtypes(['object']).columns
df10[['Sex_Label', 'Course Name_Label']] = df10[cat_columns].apply(
lambda x: pd.factorize(x)[0])
概括 就此,我要简介的十种pandas数据资料编码器的作法就分享完毕,示例拿走修订变量名就能用,关于这个疑虑如果你有愈来愈多的作法,可以在评论区进讫留言~ 以前回到评论开头的疑虑,如果你觉得pandas用紧紧很乱事,概述你可能还未对pandas有一个全面且彻底的了解到。 回事就像本文简介数据资料编码器类比一样,确实有很多作法可以解决疑虑变得很乱事,但学习pandas的正确姿势就是不应把它当成释义来学,不用记下所有作法与细节,你只需告诉有这么个数小组能顺利完成这样操作者,必须全程能只记得,只记得先来查就讫。。膝关节僵硬了怎么治疗石家庄男科哪家医院最好
信阳哪个妇科医院比较好
南京白癜风专家
天津比较好的牛皮癣医院
- 【生猪现货】收储7日开启,美国市场情绪一般,猪价持续磨底
- 李盈莹补偿金数额不详,但或面临高额补偿金费用
- 人生最重要的20~30岁,一定要做到哪些事,一定不要做到哪些事?
- 【搜猪周刊】7月6日全国猪肉平均价格18.95元/公斤 6月第5周生猪平均价格14.23元/公斤
- 惊天陷阱:陈芋汐三冠王之谜
- 涨有数!废钢还在涨!
- 学霸都在这样吃正餐,分享6天正餐益智健脑,朋友:原来从正餐就输了
- 官方:梅西&迈阿密亚太地区中国行第二站将无法在成都举办
- 【今日废铁价格】2023年7月6日全国废铁价格最新涨幅......持续更新
- 全身是宝的菜,很多人只吃果实,毕竟“花”才是宝贝,不懂吃可惜,烙饼吃最香
- 字母哥23+13利拉德首秀39分恩比德24分 雄鹿旗开得胜+送去76人开门黑
- 6月养猪市场分析7月预判!
- 织金县在主城区开展第四轮全体成员核酸筛查
- 男排汤淼:瘫痪16年,妻子富豪,与母亲相依为命,征婚无人应
- 我国寄生虫病防控工作取得显著成效 专家:生吃南美洲巴西亚马逊虾可能导致寄生虫病
- 国家能源集团首列疆煤铁路直达入鄂顺利发运
- 谷爱凌再惹争议,礼裙开叉到大腿不远处,网友:太“暴露”不合时宜
- 十年,全民健身这样刻入不来“DNA”
- 中冶赛迪承建的山钢夏季时智慧水务中心正式上线
- 又一地产大佬被带走!涉足球贪污腐败,足协主席也已落马