SparkOnMaxCompute如何访问Phonix数据

本篇文章为大家展示了Spark On MaxCompute如何访问Phonix数据，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

成都创新互联专业为企业提供汤阴网站建设、汤阴做网站、汤阴网站设计、汤阴网站制作等企业网站建设、网页设计与制作、汤阴企业网站模板建站服务，10多年汤阴做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

一、购买Hbase1.1并设置对应资源

1.1购买hbase

hbase主要版本为2.0与1.1，这边选择对应hbase对应的版本为1.1
Hbase与Hbase2.0版本的区别
HBase1.1版本
1.1版本基于HBase社区1.1.2版本开发。
HBase2.0版本
2.0版本是基于社区2018年发布的HBase2.0.0版本开发的全新版本。同样，在此基础上，做了大量的改进和优化，吸收了众多阿里内部成功经验，比社区HBase版本具有更好的稳定性和性能。

Spark On MaxCompute如何访问Phonix数据

1.2确认VPC，vsWitchID

确保测试联通性的可以方便可行，该hbase的VPCId，vsWitchID尽量与购买的独享集成资源组的为一致的。

Spark On MaxCompute如何访问Phonix数据

1.3设置hbase白名单,其中DataWorks白名单如下，个人ECS也可添加

Spark On MaxCompute如何访问Phonix数据

根据文档链接选择对应的DataWorks的region下的白名单进行添加。

Spark On MaxCompute如何访问Phonix数据

1.4查看hbase对应的版本和访问地址

打开数据库链接的按钮，可以查看到Hbase的主版本以及Hbase的专有网络访问地址，以及是否开通公网访问的方式进行连接。

Spark On MaxCompute如何访问Phonix数据

二、安装Phonix客户端，并创建表和插入数据

2.1安装客户端

根据hbase的版本为1.1选择Phonix的版本为4.12.0根据文档下载对应的客户端文件ali-phoenix-4.12.0-AliHBase-1.1-0.9.tar.gz
登陆客户端执行命令

./bin/sqlline.py 172.16.0.13,172.16.0.15,172.16.0.12:2181

Spark On MaxCompute如何访问Phonix数据

创建表：

CREATE TABLE IF NOT EXISTS users_phonix
(
    id       INT   ,
    username STRING,
    password STRING
) ;

插入数据：

UPSERT INTO users (id, username, password) VALUES (1, 'admin', 'Letmein');

2.2查看是否创建和插入成功

在客户端执行命令,查看当前表与数据是否上传成功

select * from users;

Spark On MaxCompute如何访问Phonix数据

三、编写对应代码逻辑

3.1编写代码逻辑

在IDEA按照对应得Pom文件进行配置本地得开发环境，将代码涉及到得配置信息填写完整，进行编写测试，这里可以先使用Hbase得公网访问链接进行测试，代码逻辑验证成功后可调整配置参数，具体代码如下

package com.git.phonix
import org.apache.hadoop.conf.Configuration
import org.apache.spark.sql.SparkSession
import org.apache.phoenix.spark._
/**
  * 本实例适用于Phoenix 4.x版本
  */
object SparkOnPhoenix4xSparkSession {
  def main(args: Array[String]): Unit = {
    //HBase集群的ZK链接地址。
    //格式为：xxx-002.hbase.rds.aliyuncs.com,xxx-001.hbase.rds.aliyuncs.com,xxx-003.hbase.rds.aliyuncs.com:2181
    val zkAddress = args(0)
    //Phoenix侧的表名，需要在Phoenix侧提前创建。Phoenix表创建可以参考：https://help.aliyun.com/document_detail/53716.html?spm=a2c4g.11186623.4.2.4e961ff0lRqHUW
    val phoenixTableName = args(1)
    //Spark侧的表名。
    val ODPSTableName = args(2)
    val sparkSession = SparkSession
      .builder()
      .appName("SparkSQL-on-MaxCompute")
      .config("spark.sql.broadcastTimeout", 20 * 60)
      .config("spark.sql.crossJoin.enabled", true)
      .config("odps.exec.dynamic.partition.mode", "nonstrict")
      //.config("spark.master", "local[4]") // 需设置spark.master为local[N]才能直接运行，N为并发数
      .config("spark.hadoop.odps.project.name", "***")
      .config("spark.hadoop.odps.access.id", "***")
      .config("spark.hadoop.odps.access.key", "***")
      //.config("spark.hadoop.odps.end.point", "http://service.cn.maxcompute.aliyun.com/api")
      .config("spark.hadoop.odps.end.point", "http://service.cn-beijing.maxcompute.aliyun-inc.com/api")
      .config("spark.sql.catalogImplementation", "odps")
      .getOrCreate()
    //第一种插入方式
    var df = sparkSession.read.format("org.apache.phoenix.spark").option("table", phoenixTableName).option("zkUrl",zkAddress).load()
    df.show()
    df.write.mode("overwrite").insertInto(ODPSTableName)
  }
}

3.2对应Pom文件

pom文件中分为Spark依赖，与ali-phoenix-spark相关的依赖，由于涉及到ODPS的jar包，会在集群中引起jar冲突，所以要将ODPS的包排除掉




    4.0.0
    
        2.3.0
        3.3.8-public
        2.11.8
        2.11
        4.12.0-HBase-1.1
    
    com.aliyun.odps
    Spark-Phonix
    1.0.0-SNAPSHOT
    jar
    
        
            org.jpmml
            pmml-model
            1.3.8
        
        
            org.jpmml
            pmml-evaluator
            1.3.10
        
        
            org.apache.spark
            spark-core_${scala.binary.version}
            ${spark.version}
            provided
            
                
                    org.scala-lang
                    scala-library
                
                
                    org.scala-lang
                    scalap
                
            
        
        
            org.apache.spark
            spark-sql_${scala.binary.version}
            ${spark.version}
            provided
        
        
            org.apache.spark
            spark-mllib_${scala.binary.version}
            ${spark.version}
            provided
        
        
            org.apache.spark
            spark-streaming_${scala.binary.version}
            ${spark.version}
            provided
        
        
            com.aliyun.odps
            cupid-sdk
            ${cupid.sdk.version}
            provided
        
        
            com.aliyun.phoenix
            ali-phoenix-core
            4.12.0-AliHBase-1.1-0.8
            
                
                    com.aliyun.odps
                    odps-sdk-mapred
                
                
                    com.aliyun.odps
                    odps-sdk-commons
                
            
        
        
            com.aliyun.phoenix
            ali-phoenix-spark
            4.12.0-AliHBase-1.1-0.8
            
                
                    com.aliyun.phoenix
                    ali-phoenix-core
                
            
        
    
    
        
            
                org.apache.maven.plugins
                maven-shade-plugin
                2.4.3
                
                    
                        package
                        
                            shade
                        
                        
                            false
                            true
                            
                                
                                    
                                    *:*
                                
                            
                            
                                
                                    *:*
                                    
                                        META-INF/*.SF
                                        META-INF/*.DSA
                                        META-INF/*.RSA
                                        **/log4j.properties
                                    
                                
                            
                            
                                
                                    reference.conf
                                
                                
                                    META-INF/services/org.apache.spark.sql.sources.DataSourceRegister
                                
                            
                        
                    
                
            
            
                net.alchim31.maven
                scala-maven-plugin
                3.3.2
                
                    
                        scala-compile-first
                        process-resources
                        
                            compile
                        
                    
                    
                        scala-test-compile-first
                        process-test-resources
                        
                            testCompile

四、打包上传到DataWorks进行冒烟测试

4.1创建要传入的MaxCompute表

CREATE TABLE IF NOT EXISTS users_phonix
(
    id       INT   ,
    username STRING,
    password STRING
) ;

4.2打包上传到MaxCompute

在IDEA打包要打成shaded包，将所有的依赖包，打入jar包中，由于DatadWork界面方式上传jar包有50M的限制，因此采用MaxCompute客户端进行jar包

Spark On MaxCompute如何访问Phonix数据

4.3选择对应的project环境，查看上传资源，并点击添加到数据开发

进入DataWorks界面选择左侧资源图标，选择对应的环境位开发换进，输入删除文件时的文件名称进行搜索，列表中展示该资源已经上传成，点击提交到数据开发

Spark On MaxCompute如何访问Phonix数据

点击提交按钮

Spark On MaxCompute如何访问Phonix数据

4.4配置对应的vpcList参数并提交任务测试

其中的配置vpcList文件的配置信息如下，可具体根据个人hbase的链接，进行配置

{
    "regionId":"cn-beijing",
    "vpcs":[
        {
            "vpcId":"vpc-2ze7cqx2bqodp9ri1vvvk",
            "zones":[
                {
                    "urls":[
                        {
                            "domain":"172.16.0.12",
                            "port":2181
                        },
                        {
                            "domain":"172.16.0.13",
                            "port":2181
                        },
                        {
                            "domain":"172.16.0.15",
                            "port":2181
                        },
                        {
                            "domain":"172.16.0.14",
                            "port":2181
                        },
                        {
                            "domain":"172.16.0.12",
                            "port":16000
                        },
                        {
                            "domain":"172.16.0.13",
                            "port":16000
                        },
                        {
                            "domain":"172.16.0.15",
                            "port":16000
                        },
                        {
                            "domain":"172.16.0.14",
                            "port":16000
                        },
                        {
                            "domain":"172.16.0.12",
                            "port":16020
                        },
                        {
                            "domain":"172.16.0.13",
                            "port":16020
                        },
                        {
                            "domain":"172.16.0.15",
                            "port":16020
                        },
                        {
                            "domain":"172.16.0.14",
                            "port":16020
                        }
                    ]
                }
            ]
        }
    ]
}

Spark任务提交任务的配置参数，主类，以及对应的参数
该参数主要为3个参数第一个为Phonix的链接，第二个为Phonix的表名称，第三个为传入的MaxCompute表

Spark On MaxCompute如何访问Phonix数据

点击冒烟测试按钮，可以看到任务执行成功

Spark On MaxCompute如何访问Phonix数据

在临时查询节点中执行查询语句，可以得到数据已经写入MaxCompute的表中

Spark On MaxCompute如何访问Phonix数据

总结：

使用Spark on MaxCompute访问Phonix的数据，并将数据写入到MaxCompute的表中经过实践，该方案时可行的。但在实践的时有几点注意事项：

1.结合实际使用情况选择对应的Hbase以及Phonix版本，对应的版本一致，并且所使用的客户端，以及代码依赖都会有所改变。
2.使用公网在IEAD进行本地测试，要注意Hbase白名单，不仅要设置DataWorks的白名单，还需将自己本地的地址加入到白名单中。
3.代码打包时需要将pom中的依赖关系进行梳理，避免ODPS所存在的包在对应的依赖中，进而引起jar包冲突，并且打包时打成shaded包，避免缺失遗漏对应的依赖。

上述内容就是Spark On MaxCompute如何访问Phonix数据，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注创新互联行业资讯频道。

网站栏目：SparkOnMaxCompute如何访问Phonix数据
转载来源：http://kswjz.com/article/ggechj.html

扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

SparkOnMaxCompute如何访问Phonix数据

一、购买Hbase1.1并设置对应资源

1.1购买hbase

1.2确认VPC，vsWitchID

1.3设置hbase白名单,其中DataWorks白名单如下，个人ECS也可添加

1.4查看hbase对应的版本和访问地址

二、安装Phonix客户端，并创建表和插入数据

2.1安装客户端

2.2查看是否创建和插入成功

三、编写对应代码逻辑

3.1编写代码逻辑

3.2对应Pom文件

四、打包上传到DataWorks进行冒烟测试

4.1创建要传入的MaxCompute表

4.2打包上传到MaxCompute

4.3选择对应的project环境，查看上传资源，并点击添加到数据开发

4.4配置对应的vpcList参数并提交任务测试

总结：

扫二维码与项目经理沟通

其他资讯

行业动态

企业网站建设的重要性！

服务项目

网站建设

移动端/APP

微信/小程序

技术支持

其它服务

更多服务项目

联系吧在百度地图上找到我们

电话：13518219792

SparkOnMaxCompute如何访问Phonix数据

一、购买Hbase1.1并设置对应资源

1.1购买hbase

1.2确认VPC，vsWitchID

1.3设置hbase白名单,其中DataWorks白名单如下，个人ECS也可添加

1.4查看hbase对应的版本和访问地址

二、安装Phonix客户端，并创建表和插入数据

2.1安装客户端

2.2查看是否创建和插入成功

三、编写对应代码逻辑

3.1编写代码逻辑

3.2对应Pom文件

四、打包上传到DataWorks进行冒烟测试

4.1创建要传入的MaxCompute表

4.2打包上传到MaxCompute

4.3选择对应的project环境，查看上传资源，并点击添加到数据开发

4.4配置对应的vpcList参数并提交任务测试

总结：

扫二维码与项目经理沟通

其他资讯

行业动态

企业网站建设的重要性！

服务项目

网站建设

移动端/APP

微信/小程序

技术支持

其它服务

更多服务项目

联系吧 在百度地图上找到我们

电话：13518219792

联系吧在百度地图上找到我们