php可以做大数据分析 php可以做大数据分析工程师吗-成都快上网建站

php可以做大数据分析 php可以做大数据分析工程师吗

大数据是学php吗?

两者不是同一个概念,PHP只是一种程序,而大数据指的顷键是通过用户的各种数据分乱乎颤析的方式,可以全方位的了解一个人或者是一件事情,大数据指的是一种分析方式,可以有很多实现的途径,如果哗败非要分类的话属于数据分析。

成都创新互联公司企业建站,10余年网站建设经验,专注于网站建设技术,精于网页设计,有多年建站和网站代运营经验,设计师为客户打造网络企业风格,提供周到的建站售前咨询和贴心的售后服务。对于网站制作、成都做网站中不同领域进行深入了解和探索,创新互联在网站建设中充分了解客户行业的需求,以灵动的思维在网页中充分展现,通过对客户行业精准市场调研,为客户提供的解决方案。

PHP的性能探讨和测试

缘起

关于PHP 很多人的直观感觉是PHP是一种灵活的脚本语言 库类丰富 使用简单 安全 非常适合WEB开发 但性能低下 PHP的性能是否真 的就如同大家的感觉一样的差呢?本文就是围绕这么一个话题来进行探讨的 从源码 应用场景 基准性能 对比分析等几个方面深入分析PHP之性能问题 并通 过真实的数据来说话

从原理分析PHP性能

从原理分析PHP的性能 主要从以下几个方面 内存管理 变量 函数 运行机制来进行分析

内存管理

类似Nginx的内存管理方式 PHP在内部也是基于内存池 并且引入内存池的生命周期概念 在内存池方面 PHP对PHP脚本和扩展的所有内 存相关操作都进行了托管 对大内存和小内存的管理采用了不同的实现方式和优化 具体可以参考以下文档 在内存分配和回收的生命周期内 PHP采用一次初始化申请+动态扩容+内存标识回收机制 并且在每次请求结束后直 接对内存池进行重新mask

变量

总所周知 PHP是一种弱变量类型的语言 所以在PHP内部 所有的PHP变量都对应成一种类型Zval 其中具体定义如下

图一PHP变量

在变量方面 PHP做了大量的优化工作 比如说Reference counting和copy on writer机制 这样能够保证内存使用上的优化 并且亮简逗减少内存拷贝次数(请参考) 在数组方面 PHP内部采用高效的hashtable来实现

函数

在PHP内部 所有的PHP函数都回转化成内部的一个函数指针 比如说扩展中函数

ZEND_FUNCTION ( my_function );//类似function my_function(){}

在内部展开后就会是一个函数

void zif_my_function ( INTERNAL_FUNCTION_PARAMETERS );

void zif_my_function(

int ht

zval * return_value

zval * this_ptr

int return_value_used

zend_executor_globals * executor_globals

);

从这个角度来看 PHP函数在内部也是对应一个函数指针

运行机制

敬卖在话说PHP性能的时候 很多人都会说“C/C++是编译型咐李 JAVA是半编译型 PHP是解释型” 也就是说PHP是先动态解析再代码运行的 所以从这个角度来看 PHP性能必然很差

的确 从PHP脚本运行来输出 的确是一个动态解析再代码运行的过程 具体来说 PHP脚本的运行机制如下图所示

图二 PHP运行机制

PHP的运行阶段也分成三个阶段

Parse 语法分析阶段

Compile 编译产出opcode中间码

Execute 运行 动态运行进行输出

所以说 在PHP内部 本身也是存在编译的过程 并且据此产生了大量的opcode cache工具 比如说apc eacc xcache等等 这些opcode cache在生产环境基本上在标配 基于opcode cache 能到做到“PHP脚本编译一次 多次运行”的效果 从这点上 PHP就和JAVA的半编译机制非常类似

所以 从运行机制上来看 PHP的运行模式和JAVA是非常类似的 都是先产生中间码 然后运行在不同虚拟机上

动态运行

从上面的几个分析来看 PHP在内存管理 变量 函数 运行机制等几个方面都做了大量的工作 所以从原理来看 PHP 不应该存在性能问题 性能至少也应该和Java 比较接近

这个时候就不得不谈PHP动态语言的特性所带来的性能问题了 由于PHP是动态运行时 所以所有的变量 函数 对象调用 作用域实现等等都是在 执行阶段中才确定的 这个从根本上决定了PHP性能中很难改变的一些东西 在C/C++等能够在静态编译阶段确定的变量 函数 在PHP中需要在动态运行 中确定 也就决定了PHP中间码不能直接运行而需要运行在Zend Engine上

说到PHP变量的具体实现 又不得不说一个东西了 Hashtable Hashtable可以说在PHP灵魂之一 在PHP内部广泛用到 包含变量符号栈 函数符号栈等等都是基于hashtable的

以PHP变量为例来说明下PHP的动态运行特点 比如说代码

?php

$var = “hello  blog xiuwz ”;

?

该代码的执行结果就是在变量符号栈(是一个hashtable)中新增一个项

当要使用到该变量时候 就去变量符合栈中去查找(也就是变量调用对出了一个hash查找的过程)

同样对于函数调用也基本上类似有一个函数符号栈(hashtable)

其实关于动态运行的变量查找特点 在PHP的运行机制中也能看出一些 PHP代码通过解释 编译后的流程下图

图 PHP运行实例

从上图可以看出 PHP代码在pile之后 产出的了类符号表 函数符号表 和OPCODE 在真正执行的时候 zend Engine会根据op code去对应的符号表中进行查找 处理

从某种程度上 在这种问题的上 很难找到解决方案 因为这是由于PHP语言的动态特性所决定的 但是在国内外也有不少的人在寻找解决方案 因为 通过这样 能够从根本上完全的优化PHP 典型的列子有facebook的hiphop

结论

从上面分析来看 在基础的内存管理 变量 函数 运行机制方面 PHP本身并不会存在明显的性能差异 但由于PHP的动态运行特性 决定了 PHP和其他的编译型语言相比 所有的变量查找 函数运行等等都会多一些hash查找的CPU开销和额外的内存开销 至于这种开销具体有多大 可以通过后 续的基准性能和对比分析得出

因此 也可以大体看出PHP不太适合的一些场景 大量计算性任务 大数据量的运算 内存要求很严格的应用场景 如果要实现这些功能 也建议通过扩展的方式实现 然后再提供钩子函数给PHP调用 这样可以减低内部计算的变量 函数等系列开销

基准性能

对于PHP基准性能 目前缺少标准的数据 大多数同学都存在感性的认识 有人认为 QPS就是PHP的极限了 此外 对于框架的性能和框架对性能的影响很没有响应的权威数字

本章节的目的是给出一个基准的参考性能指标 通过数据给大家一个直观的了解

具体的基准性能有以下几个方面

裸PHP性能 完成基本的功能

裸框架的性能 只做最简单的路由分发 只走通核心功能

标准模块的基准性能 所谓标准模块的基准性能 是指一个具有完整服务模块功能的基准性能

环境说明

测试环境

Uname aPnux db forum test db baidu _ # SMP Wed Aug   : : CST x _ x _ x _ GNU/Pnux

Red Hat Enterprise Pnux AS release (Nahant Update )

Intel(R) Xeon(R) CPU           E   @ GHz

软件相关

Nginx nginx version: nginx/   built by gcc (Red Hat )

Php (采用php fpm)

PHP (cP) (built: Mar  : : )

Copyright (c) The PHP Group

Zend Engine v Copyright (c) Zend Technologies

with eAccelerator v Copyright (c) eAccelerator by eAccelerator

bingo

PHP框架

其他说明

目标机器的部署方式 nginx php fpm php脚本

测试压力机器和目标机器独立部署

裸PHP性能

最简单的PHP脚本

?php

require_once ‘ /actions/indexAction php’;

$objAction = new indexAction();

$objAction init();

$objAction execute();

?

Acitons/indexAction php里面的代码如下

?php

class indexAction

{

pubPc function execute()

{

echo ‘hello  world!’;

}

}

?

通过压力工具测试结果如下

裸PHP框架性能

为了和 的对比 基于bingo 框架实现了类似的功能 代码如下

?php

require_once ‘Bingo/Controller/Front php’;

$objFrontController = Bingo_Controller_Front::getInstance(array(

‘actionDir’ = ‘ /actions’

));

$objFrontController dispatch();

压力测试结果如下

从该测试结果可以看出 框架虽然有一定的消耗 但对整体的性能来说影响是非常小的

标准PHP模块的基准性能

所谓标准PHP模块 是指一个PHP模块所必须要具体的基本功能

路由分发

自动加载

LOG初始化Notice日志打印 所以的UI请求都一条标准的日志

错误处理

时间校正

自动计算每个阶段耗时开销

编码识别编码转化

标准配置文件的解析和调用

采用bingo 的代码自动生成工具产生标准的测试PHP模块 test

测试结果如下

结论

从测试数据的结论来看 PHP本身的性能还是可以的 基准性能完全能够达到几千甚至上W的QPS 至于为什么在大多数的PHP模块中表现不佳 其实这个时候更应该去找出系统的瓶颈点 而是简单的说OK PHP不行 那我们换C来搞吧 (下一个章节 会通过一些例子来对比 采用C来处理不见得有特 别的优势)

通过基准数据 可以得出以下几个具体的结论

PHP本身性能也很不错 简单功能下能够达到 QPS 极限也能过W

PHP框架本身对性能影响非常有限 尤其是在有一定业务逻辑和数据交互的情况下 几乎可以忽略

一个标准的PHP模块 基准性能能够达到 QPS( cpu idle)

对比分析

lishixinzhi/Article/program/PHP/201311/21287

php程序员数据库 大数据DBA这两个哪个方向好?

不要想的太宽,建衡启巧议从PHP先学起,试想哪个公司会让新人一上去就去设计数据库呢。数据库在工作中自然能慢慢锻炼,并且由于硬件和实践的原因,在工作中学到咐键的数据库方面的知识绝对是在学校拼命看书所不旁野能比的


文章名称:php可以做大数据分析 php可以做大数据分析工程师吗
网页网址:http://kswjz.com/article/dspjjgd.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流