扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
时期(period)表示的是时间区间,比如数日、数月、数季、数年等。Period类所 表示的就是这种数据类型,其构造函数需要用到一个字符串或整数,以及表11-4中 的频率:
我们提供的服务有:成都网站制作、网站设计、微信公众号开发、网站优化、网站认证、莲池ssl等。为上1000家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的莲池网站制作公司
这里,这个Period对象表示的是从2007年1月1日到2007年12月31日之间的整段时间。
只需对Period对象加上或减去一个整数即可达到根据其频率进行位移的效果:
如果两个Period对象拥有相同的频率,则它们的差就是它们之间的单位数量:
period_range函数可用于创建规则的时期范围:
PeriodIndex类保存了一组Period,它可以在任何pandas数据结构中被用作轴索引:
如果你有一个字符串数组,你也可以使用PeriodIndex类:
Period和PeriodIndex对象都可以通过其asfreq方法被转换成别的频率。假设我们有 一个年度时期,希望将其转换为当年年初或年末的一个月度时期。该任务非常简 单:
你可以将Period('2007','A-DEC')看做一个被划分为多个月度时期的时间段中的游 标。图11-1对此进行了说明。
对于一个不以12月结束的财政年度,月度子时期的归属情况就不一样了:
在将高频率转换为低频率时,超时期(superperiod)是由子时期(subperiod)所 属的位置决定的。例如,在A-JUN频率中,月份“2007年8月”实际上是属于周期“2008年”的:
完整的PeriodIndex或TimeSeries的频率转换方式也是如此:
这里,根据年度时期的第一个月,每年的时期被取代为每月的时期。
如果我们想要 每年的最后一个工作日,我们可以使用“B”频率,并指明想要该时期的末尾:
未完待续。。。
这几个函数在 Python 里面被称为高阶函数,本文主要学习它们的用法。
filter 函数原型如下:
第一个参数是判断函数(返回结果需要是 True 或者 False),第二个为序列,该函数将对 iterable 序列依次执行 function(item) 操作,返回结果是过滤之后结果组成的序列。
简单记忆:对序列中的元素进行筛选,获取符合条件的序列。
返回结果为: ,使用 list 函数可以输入序列内容。
map 函数原型如下:
该函数运行之后生成一个 list,第一个参数是函数、第二个参数是一个或多个序列;
下述代码是一个简单的测试案例:
上述代码运行完毕,得到的结果是: 。使用 print(list(my_new_list)) 可以得到结果。
map 函数的第一个参数,可以有多个参数,当这种情况出现后,后面的第二个参数需要是多个序列。
map 函数解决的问题:
reduce 函数原型如下:
第一个参数是函数,第二个参数是序列,返回计算结果之后的值。该函数价值在于滚动计算应用于列表中的连续值。
测试代码如下:
最终的结果是 6,如果设置第三个参数为 4,可以运行代码查看结果,最后得到的结论是,第三个参数表示初始值,即累加操作初始的数值。
简单记忆:对序列内所有元素进行累计操作。
zip 函数原型如下:
zip 函数将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
如果各个迭代器的元素个数不一样,则返回列表长度与最短的对象相同,利用星号( * )操作符,可以将元组解压为列表。
测试代码如下:
展示如何利用 * 操作符:
输出结果如下:
简单记忆:zip 的功能是映射多个容器的相似索引,可以方便用于来构造字典。
enumerate 函数原型如下:
参数说明:
该函数用于将一个可遍历的数据对象组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
测试代码如下:
返回结果为: 。
本文涉及的函数可以与 lambda 表达式进行结合,能大幅度提高编码效率。最好的学习资料永远是官方手册
公司平台上有不同的api,供内部或外部调用,这些api承担着不同的功能,如查询账号、发版、抢红包等等。日志会记录下每分钟某api被访问了多少次,即一个api每天会有1440条记录(1440分钟),将每天的数据连起来观察,有点类似于股票走势的意思。我想通过前N天的历史数据预测出第N+1天的流量访问情况,预测值即作为合理参考,供新一天与真实值做实时对比。当真实流量跟预测值有较大出入,则认为有异常访问,触发报警。
我放了一份样例数据在data文件夹下,
看一下数据大小和结构
画图看一下序列的走势:(一些画图等探索类的方法放在了test_stationarity.py 文件中,包含时间序列图,移动平均图,有兴趣的可以自己尝试下)。
看这糟心的图,那些骤降为0的点这就是我遇到的第一个坑,我当初一拿到这份数据就开始做了。后来折腾了好久才发现,那些骤降为0的点是由于数据缺失,ETL的同学自动补零造成的,沟通晚了(TДT)。
把坑填上,用前后值的均值把缺失值补上,再看一眼:
发现这份数据有这样几个特点,在模型设计和数据预处理的时候要考虑到:
前六天的数据做训练,第七天做测试集。
消除数据的毛刺,可以用移动平均法,我这里没有采用,因为我试过发现对于我的数据来说,移动平均处理完后并不能使数据平滑,我这里采用的方法很简单,但效果还不错:把每个点与上一点的变化值作为一个新的序列,对这里边的异常值,也就是变化比较离谱的值剃掉,用前后数据的均值填充,注意可能会连续出现变化较大的点:
平滑后的训练数据:
采用statsmodels工具包:
对分解出来的趋势部分单独用arima模型做训练:
预测出趋势数据后,加上周期数据即作为最终的预测结果,但更重要的是,我们要得到的不是具体的值,而是一个合理区间,当真实数据超过了这个区间,则触发报警,误差高低区间的设定来自刚刚分解出来的残差residual数据:
预测并完成最后的加法处理,得到第七天的预测值即高低置信区间:
对第七天作出预测,评估的指标为均方根误差rmse,画图对比和真实值的差距:
可以看到,均方根误差462.8,相对于原始数据几千的量级,还是可以的。测试数据中的两个突变的点,也超过了置信区间,能准确报出来。
前文提到不同的api形态差异巨大,本文只展示了一个,我在该项目中还接触了其他形态的序列,有的有明显的上升或下降趋势;有的开始比较平缓,后面开始增长... ... ,但是都属于典型的周期性时间序列,它的核心思想很简单:做好分解,做好预测结果的还原,和置信区间的设置,具体操作可根据具体业务逻辑做调整,祝大家建模愉快:-D。
列表和字符串都是Python中的序列类型,它们有很多共同特性,如都可以进行“+”操作和“*”操作,都可以使用for循环迭代等。
为什么要使用序列呢?通过图中有序与无序的对比可能会得出答案,在很多情况下,有序的序列可能会更加方便操作。
序列是有序元素的集合。在计算机中,序列的一个典型示例就是在内存中保存数据,内存的地址是从小到大有序排列的,每一个地址存放一个数据,如图所示。
实际上,Python中的序列有一些操作是通用的,即可以用到每一种序列类型中。以下序列操作分别用列表和字符串举例。
1. min()函数和max()函数
min()函数和max()函数分别返回序列的最小项和最大项。
numbers = [15, -2, 3, 42, 102]
max(numbers)
102
min(numbers)
-2
max('Python')
'y'
min('Python')
'P'
2. in和not in
使用in和not in操作符来判断某个子序列是否在该序列中:
1 in [1, 2, 3]
True
4 not in [1, 2, 3]
True
'p' in 'Python' # Python区分大小写
False
'yth' in 'Python' # 不仅仅可以判断单个字符
True
3. “+”和“*”
使用“+”操作符来拼接序列,使用“*”操作符来重复相加序列:
'Py' + 'thon'
'Python'
'I love you!' * 5
'I love you!I love you!I love you!I love you!I love you!'
列表的“+”操作与extend()方法类似,但是“+”操作不是就地操作,有返回值:
list1 = [1, 2, 3]
list2 = [4, 5, 6]
list3 = list1 + list2
list3
[1, 2, 3, 4, 5, 6]
list4 = list1.extend(list2)
list4 # list4是None
list1 # list2追加到了list1上
[1, 2, 3, 4, 5, 6]
包含数字的列表和包含字符串的列表进行“*”操作:
numbers_list = [1] * 3
strings_list = ['Python'] * 3
numbers_list
[1, 1, 1]
strings_list
['Python', 'Python', 'Python']
numbers_list[0] = 3
strings_list[0] = 'C'
numbers_list
[3, 1, 1]
strings_list
['C', 'Python', 'Python']
4. 索引和切片
索引和切片都是通用的序列操作,因此,不仅列表有索引和切片,字符串也有索引和切片:
word = 'Python'
word[0] # 第1个字符
'P'
word[-2] # 倒数第2个字符
'o'
word[:2] # 前2个字符
'Py'
word[:2] + word[2:] # 字符拼接
'Python'
word[-3:] # 后3个字符
'hon'
5. len()函数
len()函数用于获取序列的长度:
words = """Python is a programming language that lets you work quickly and integrate systems more effectively."""
len(words)
99
lists_ = ['Python', 312, []]
len(lists)
3
6. index()方法
序列中的index()方法用于查找第一个出现指定子序列的索引位置,如果不存在,那么会抛出ValueError异常:
word = 'banana'
word.index('a')
1
word.index('na')
2
word.index('an')
1
word.index('c')
Traceback (most recent call last):
File "", line 1, in
ValueError: substring not found
index()方法也可以指定查找范围,即查找索引位置的起始值和结束值:
numbers = [3, 1, 4, 1, 5]
numbers.index(1)
1
numbers.index(1, 2)
3
word = 'banana'
word.index('a', 2, 4)
3
7. count()方法
不仅仅是列表,每一种序列类型都有count()方法:
word = 'banana'
word.count('a')
3
word.count('na')
2
word.count('c')
numbers = [1, 0, 1, 0, 1, 1]
numbers.count(0)
2
numbers.count(1)
4
python中range()函数的用法:
(1)range(stop)
创建一个(0,stop)之间的整数序列,步长为1。
(2)range(start,stop)
创建一个(start,stop)之间的整数序列,步长为1。
(3)range(start,stop,step)
创建一个[start,stop)之间的整数序列,步长为step。
参数介绍:
start:表示从返回序列的起始编号,默认情况下从0开始。
stop:表示生成最多但不包括此数字的数字。
step:指的是序列中每个数字之间的差异,默认值为1。
相关介绍
range()是Python的内置函数,在用户需要执行特定次数的操作时使用它,表示循环的意思。内置函数range()可用于以列表的形式生成数字序列。在range()函数中最常见用法是使用for和while循环迭代序列类型(List,string等)。
简单的来说,range()函数允许用户在给定范围内生成一系列数字。根据用户传递给函数的参数数量,用户可以决定该系列数字的开始和结束位置以及一个数字与下一个数字之间的差异有多大。
1、高阶函数
变量可以指向函数,函数的参数可以接收变量,那么函数可以接收另一个函数作为参数,这种函数称为高阶函数。
(1)把函数作为实参
(2)把函数作为返回值
2、系统的内置高阶函数
(1)map函数:接收两个参数,一个是函数,一个是序列,map将传入的函数依次作用到序列的每个元素,并且把结果作为新的列表返回
(2)reduce函数:把一个函数作用到一个序列上,这个函数必须接收两个参数,reduce把结果和序列的下一个元素做累积计算
(3)filter函数:也接收一个函数和一个序列,和map函数不同的是,filter函数把传入的函数依次作用于每个元素,然后返回返回值是True的元素
(4)sorted函数:排序函数
把用户名按照首字母不区分大小写排序
(5)sorted()函数按照关键字排序
关键字:商品个数
(6)sorted()函数按照关键字排序,用键值来查找
(7)lambda匿名函数:有时候传参数时不需要显示自定义的函数,直接传入匿名函数更方便;冒号前面的x,y表示函数参数,匿名函数不需要担心函数名的冲突,匿名函数也是一个函数对象,可以把匿名函数赋值给一个变量,再利用变量来调用函数,匿名函数也可以作为返回值返回
3、高阶函数的应用:
(1)sorted函数:
(2)sorted函数默认是从小到大排序
4、装饰器
装饰器就是用来装饰函数的:想要增加原有函数的功能,但是不希望修改原有函数的定义,在代码运行期间动态增加功能的方式
(1)此装饰器的功能:计算函数的运行时间
import functools
@functools.wraps(f) ##保留原有函数的属性
运行结果:
(2)此装饰器的功能:用户登录认证
运行结果:
(3)此装饰器的功能:认证用户的同时,显示用户的转账金额
import inspect
inspect.getcallargs()将传的参数封装为一个字典,字典的key值是形式参数,value值是实参
(4)此装饰器的功能:确保收到的每个参数都是整数,是整数就求和,否则抛出错误
(5)此装饰器的功能:给装饰器传参数,是整数和浮点数就求和
python学习网,大量的免费python视频教程,欢迎在线学习!
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流