扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
这篇文章主要用代码分析python如何读取hdfs并返回dataframe,内容清晰明了,对此有兴趣的小伙伴可以学习一下,相信大家阅读完之后会有帮助。
创新互联专注于企业成都全网营销、网站重做改版、高台网站定制设计、自适应品牌网站建设、H5网站设计、电子商务商城网站建设、集团公司官网建设、外贸营销网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为高台等各大城市提供网站开发制作服务。不多说,直接上代码
from hdfs import Client import pandas as pd HDFSHOST = "http://xxx:50070" FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路径 COLUMNNAMES = [xx'] def readHDFS(): ''' 读取hdfs文件 Returns: df:dataframe hdfs数据 ''' client = Client(HDFSHOST) # 目前读取hdfs文件采用方式: # 1. 先从hdfs读取二进制数据流文件 # 2. 将二进制文件另存为.csv # 3. 使用pandas读取csv文件 with client.read(FILENAME) as fs: content = fs.read() s = str(content, 'utf-8') file = open("data/tmp/data.csv", "w") file.write(s) df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES) return df
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流