Impala的特点有哪些

本篇内容主要讲解“Impala的特点有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Impala的特点有哪些”吧!

创新互联长期为1000+客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为灌南企业提供专业的网站设计制作、网站设计，灌南网站改版等技术服务。拥有十载丰富建站经验和众多成功案例,为您定制开发。

Impala 是参照google 的新三篇论文Dremel(大批量数据查询工具)的开源实现，功能类似shark（依赖于hive）和Drill（apache），impala 是clouder 公司主导开发并开源，基于hive 并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。是使用cdh 的首选PB 级大数据实时查询分析引擎。（Impala 依赖cdh 是完全没有问题的，官网说可以单独运行，但是他单独运行会出现好多的问题）

Impala与Shark、sparkSQL、Drill等的简单比较
Impala的特点有哪些

Impala起步较早，目前能够商用的为数不多的大数据查询引擎之一；
CDH5不支持sparkSQL；
Drill起步晚，尚不成熟；
shark功能和架构上同Impala相似，该项目已经停止开发。

Impala特点

基于内存进行计算，能够对PB级数据进行交互式实时查询/分析；
无需转换为MR，直接读取HDFS数据
C++编写，LLVM统一编译运行
兼容HiveSQL
具有数据仓库的特性，可对hive数据直接做数据分析
支持Data Local
支持列式存储
支持JDBC/ODBC远程访问
支持sql92标准，并具有自己的解析器和优化器
Impala核心组件
对于impala 来讲，是没有主节点的，而要理解主节点，impala statestore 和catalog server两个角色，就具备集群调节的功能，根据以上的特点，对impala 进行配置优化配置impala 内存，每一个deamon 都需要配置内存，因为真正做查询工作的就是deamon 所在的节点，所以impala 的总内存，就是所有deamon 节点的内存之和；如果要在哪台机器上面汇总，就需要在那一台机器上的内存调大一些；我们了解到的，真正提供查询的是deamon,那么我们连接哪一台呢？Impala,你可以连接其中deamon 任何一个都行，可以根据自己的需求来，（1）当你查询的量相对大的时候，你就连接内存大的机器，（2）当每台机器都适合查询的情况下也可以随机找一台机器，自己写一个轮询或者权重算法；解决高并发问题
- Statestore Daemon
- Catalog Daemon（1.2 版本之后才加入）
- Impala Daemon（主要来提供查询）