您当前的位置:首页 >> 家居优品

利用 Pandas 透过分类数据编码的十种方式

2023-03-01 12:16:09

eshape(-1,1))

df5['Score_Label'] = trans

句法型数据资料 下面简介愈来愈常见的,对句法数据资料进讫类比打标签。例如升级一佩,将性别歧视男、女分别标记为0、1

用到 replace 首先讫简介replace,但要提醒的是,纸片说过的可选数小组系统性作法依旧是可讫的

df6 = df.copy()

df6['Sex_Label'] = df6['Sex'].replace(['Male','Female'],[0,1])

纸片是对性别歧视操作者,因为只有男女,所以可以手动选定0、1,但要是类别很多,也可以用到pd.value_counts()来自动选定标签,例如对Course Name佩分小组

df6 = df.copy()

value = df6['Course Name'].value_counts()

value_map = dict((v, i) for i,v in enumerate(value.index))

df6['Course Name_Label'] = df6.replace({'Course Name':value_map})['Course Name']

用到map 额外重申的是,升级一佩,一定要能够只记得map

df7 = df.copy()

Map = {elem:index for index,elem in enumerate(set(df["Course Name"]))}

df7['Course Name_Label'] = df7['Course Name'].map(Map)

用到astype 这个作法不应很多人不告诉,这就属于纸片提到的知乎疑虑,能解决疑虑的作法实在了

df8 = df.copy()

value = df8['Course Name'].astype('category')

df8['Course Name_Label'] = value.cat.codes

用到 sklearn 同数差值型一样,这种机器学习之前的经典操作者,sklearn一定有适时,用到LabelEncoder可以对类群数据资料进讫编码器

from sklearn.preprocessing import LabelEncoder

df9 = df.copy()

le = LabelEncoder()

le.fit(df9['Sex'])

df9['Sex_Label'] = le.transform(df9['Sex'])

le.fit(df9['Course Name'])

df9['Course Name_Label'] = le.transform(df9['Course Name'])

一次性类比两佩也是可以的

df9 = df.copy()

le = OrdinalEncoder()

le.fit(df9[['Sex','Course Name']])

df9[['Sex_Label','Course Name_Label']] = le.transform(df9[['Sex','Course Name']])

用到factorize 最后,先简介一个小众但好用的pandas作法,我们必须提醒到,在纸片的作法之前,自动分解的Course Name_Label佩,虽然一个数据资料对应一个口语,因为避免写就可选数小组或者释义,这样可以自动分解,所以多数是无序的。

如果我们想它是基本的,也就是 Python 对应 0,Java对应1,除了自己选定,还有什么优美的适时?这时可以用到factorize,它会根据用到排序进讫编码器

df10 = df.copy()

df10['Course Name_Label'] = pd.factorize(df10['Course Name'])[0]

融合匿名数小组,我们可以无论如何对多佩进讫基本编码器类比

df10 = df.copy()

cat_columns = df10.select_dtypes(['object']).columns

df10[['Sex_Label', 'Course Name_Label']] = df10[cat_columns].apply(

lambda x: pd.factorize(x)[0])

概括 就此,我要简介的十种pandas数据资料编码器的作法就分享完毕,示例拿走修订变量名就能用,关于这个疑虑如果你有愈来愈多的作法,可以在评论区进讫留言~

以前回到评论开头的疑虑,如果你觉得pandas用紧紧很乱事,概述你可能还未对pandas有一个全面且彻底的了解到。

回事就像本文简介数据资料编码器类比一样,确实有很多作法可以解决疑虑变得很乱事,但学习pandas的正确姿势就是不应把它当成释义来学,不用记下所有作法与细节,你只需告诉有这么个数小组能顺利完成这样操作者,必须全程能只记得,只记得先来查就讫。

膝关节僵硬了怎么治疗
石家庄男科哪家医院最好
信阳哪个妇科医院比较好
南京白癜风专家
天津比较好的牛皮癣医院
相关阅读
友情链接