扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
这篇文章主要介绍“实用的pandas知识点有哪些”,在日常操作中,相信很多人在实用的pandas知识点有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”实用的pandas知识点有哪些”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
创新互联是一家专注于成都网站设计、做网站与策划设计,闻喜网站建设哪家好?创新互联做网站,专注于网站建设十余年,网设计领域的专业建站公司;建站业务涵盖:闻喜等地区。闻喜做网站价格咨询:13518219792
pandas
作为开展数据分析的利器,蕴含了与数据处理相关的丰富多样的API,使得我们可以灵活方便地对数据进行各种加工,但很多pandas
中的实用方法其实大部分人都是不知道的,今天就来给大家介绍6个不太为人们所所熟知的实用pandas
小技巧。
pandas
小知识很多时候我们计算过程中产生的结果是Series
格式的,而接下来的很多操作尤其是使用「链式」语法时,需要衔接着传入DataFrame
格式的变量,这种时候我们就可以使用到pandas
中Series
向DataFrame
转换的方法:
s = pd.Series([0, 1, 2])
# Series转为DataFrame,name参数用于指定转换后的字段名
s = s.to_frame(name='列名')
s
顺便介绍一下单列数据组成的数据框转为Series
的方法:
# 只有单列数据的DataFrame转为Series
s.squeeze()
有时候我们需要对数据框整体的行顺序进行打乱,譬如在训练机器学习模型时,打乱原始数据顺序后取前若干行作为训练集后若干行作为测试集,这在pandas
中可以利用sample()
方法快捷实现。
sample()
方法的本质功能是从原始数据中抽样行记录,默认为不放回抽样,其参数frac
用于控制抽样比例,我们将其设置为1则等价于打乱顺序:
df = pd.DataFrame({
'V1': range(5),
'V2': range(5)
})
df.sample(frac=1)
当我们的数据框中某些列是由少数几种值大量重复形成时,会消耗大量的内存,就像下面的例子一样:
import numpy as np
pool = ['A', 'B', 'C', 'D']
# V1列由ABCD大量重复形成
df = pd.DataFrame({
'V1': np.random.choice(pool, 1000000)
})
# 查看内存使用情况
df.memory_usage(deep=True)
这种时候我们可以使用到pandas
数据类型中的类别型来极大程度上减小内存消耗:
df['V1'] = df['V1'].astype('category')
df.memory_usage(deep=True)
可以看到,转换类型之后内存消耗减少了将近98.3%!
在日常使用pandas
处理数据的过程中,经常会遇到object
这种数据类型,很多初学者都会把它视为字符串,事实上object
在pandas
中可以代表不确定的数据类型,即类型为object
的Series
中可以混杂着多种数据类型:
s = pd.Series(['111100', '111100', 111100, '111100'])
s
查看类型分布:
s.apply(lambda s: type(s))
这种情况下,如果贸然当作字符串列来处理,对应的无法处理的元素只会变成缺失值而不报错,给我们的分析过程带来隐患:
s.str.replace('00', '11')
这种时候就一定要先转成对应的类型,再执行相应的方法:
s.astype('str').str.replace('00', '11')
在pandas
中我们可以对单个Series
查看hanans
属性来了解其是否包含缺失值,而结合apply()
,我们就可以快速查看整个数据框中哪些列含有缺失值:
df = pd.DataFrame({
'V1': [1, 2, None, 4],
'V2': [1, 2, 3, 4],
'V3': [None, 1, 2, 3]
})
df.apply(lambda s: s.hasnans)
在pandas
中我们可以利用rank()
方法计算某一列数据对应的排名信息,但在rank()
中有参数method
来控制具体的结果计算策略,有以下5种策略,在具体使用的时候要根据需要灵活选择:
在average
策略下,相同数值的元素的排名是其内部排名的均值:
s = pd.Series([1, 2, 2, 2, 3, 4, 4, 5, 6])
s.rank(method='average')
在min
策略下,相同元素的排名为其内部排名的最小值:
s.rank(method='min')
max
策略与min
正好相反,取的是相同元素内部排名的最大值:
s.rank(method='max')
在dense
策略下,相当于对序列去重后进行排名,再将每个元素的排名赋给相同的每个元素,这种方式也是比较贴合实际需求的:
s.rank(method='dense')
在first
策略下,当多个元素相同时,会根据这些相同元素在实际Series
中的顺序分配排名:
s = pd.Series([2, 2, 2, 1, 3])
s.rank(method='first')
到此,关于“实用的pandas知识点有哪些”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流