扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。
专注于为中小企业提供成都网站设计、网站制作服务,电脑端+手机端+微信端的三站合一,更高效的管理,为中小企业罗山免费做网站提供优质的服务。我们立足成都,凝聚了一批互联网行业人才,有力地推动了上千多家企业的稳健成长,帮助中小企业通过网站建设实现规模扩充和转变。
1、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。
2、数据存储:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。
4、数据查询分析:Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。
本节重点:地理坐标系和投影坐标系的原理,GIS中地理与投影坐标系的转换问题
地理坐标系使用三维球面来定义地球上的位置。GCS中经度和纬度值以十进制度为单位或以度、分和秒 (DMS) 为单位进行测量。
我国常见的GCS:
地理坐标系是基于 经纬度 的,经纬度本身不带单位,度分秒仅仅是一个进制。
那么如何建立一个新的坐标系使得地图分析、空间分析得以定量计算?
PCS——投影坐标系就诞生了。
将球面坐标转化为平面坐标的过程称为投影。
我国的6种常用投影方式:
·高斯克吕格(Gauss Kruger)投影=横轴墨卡托(Transverse Mercator)投影
·墨卡托(Mercator)投影
·通用横轴墨卡托(UTM)投影
·Lambert投影
·Albers投影
·Web Mercator(网络墨卡托)投影
PCS是基于存在的GCS的,没有GCS,就无从谈PCS。PCS是GCS上的地物投射到具体投影面的一种结果。即:PCS=GCS+投影方式
我们得到的数据文件的地理坐标一般都是GCS_WGS_1984。如果某一数据集的坐标系未知或不正确,可以使用定义坐标系统的工具来指定正确的坐标系,使用此工具前,必须已获知该数据集的正确坐标系。
这里我以之前做的西安职住分布数据为例,打开ArcMap,拖入shp数据
目前看来这个图是有点扁扁的,在目录中该shp数据上右键——属性——XY坐标系
可以看到当前已经定义过的地理坐标系:GCS_WGS_1984
鼠标在地图上移动时,可以看到右下角显示该点的经纬度
如果我们只是为了显示或出图效果,可以直接在图层上右键——属性——坐标系
选择该数据框的投影坐标系
But(手动划重点),如果在数据的属性页的XY坐标系选项卡,或者图层数据框的XY坐标系选项卡中修改GCS,这仅仅是改个名,坐标值还是原来的坐标系上的,也就是换汤不换药。只有用投影的方法,才是真正的坐标仿射变换到新的坐标系,使之更改数值,形成在新的坐标系下的新坐标值。
注意 需要进行有关带单位的具体数值的操作时,例如测量距离、缓冲区分析、网格分析等,必须要转换成正确的投影坐标系,才能进行计算
系统工具箱——数据管理——投影与变换——投影
(若同时投影多个shp,选择“批量投影”。若数据为栅格文件,选择“投影栅格”)
(这一步也可以直接在搜索栏中搜索工具“投影”即可)
注意 是“投影”,不要选成“定义投影”。定义投影 只是变换投影信息,不改变它是投影坐标系的本质,即对原来没有投影或者投影是错误的矢量/影像进行投影,就是添加一个正确的投影,从其作用等于在catalog中直接对矢量/影像右击进行投影信息的改变。
设置如下:
其中输出坐标系——投影坐标系——UTM——WGS 1984——Northern Hemisphere——WGS 1984 UTM Zone 49N
(这里WGS 1984 UTM Zone 49N意思就是:在WGS 1984的GCS下进行UTM投影在第49分度带上,过后解释一下为什么选择49N)
转换成功后,再打开新数据的属性,发现除了原地理坐标系以外,还多了我们设置的当前投影坐标系
这时再在图层上右键设置同样的投影坐标系,地图看起来正常了,这才是正确流程
这里我们选择的是UTM投影方式,选择哪个带根据下图判断
网上查到西安经度为东经107.40度~109.49度,UTM Zone在48-49之间,这里我就取49了
其他城市同理
一、促进水利信息化的意义
水利资源的信息化是指与水相关数据的收集、处理和传输,以及利用现代系统、管理和技术对其进行综合利用。此外,水资源信息化对发展国民经济、提升农业生产效率、加强政府管理能力具有重要意义。
1.国家战略规划。水污染、缺水、洪涝三大水资源问题严重影响着各国社会和人类发展。长江、黄河等干流及其流域,以及其他形式的水污染、水土流失等问题仍在继续,国民经济每年损失能够达到数亿美元。为提高水资源利用效率,造福人民,水利部将水利建设列入发展规划,作为水资源管理的依据。规划提出要有效适应水资源管理理念,从工程到水资源管理,信息资源战略思维,实现水资源利用效益最大化。在这一过程中,综合信息化和水资源数字化是前提和基础。在大数据时代,信息的冗余和拥塞制约着水利信息化的进程,因此,建立水利信息系统具有重要的战略意义。
2.促进政府职能转变。政府要服务于公共利益和社会水利利益,提高水利信息化水平,水利管理部门可以通过数据管理门户或平台向社会发布水利管理信息,我们要及时帮助社会,维护社会治安,保障公共事业的公平正义。
3.促进经济发展。水是一种自然资源,水利工程是公用事业的基础设施,是国家最有效、最可持续地利用水资源的计划,是保证社会经济稳定发展和人民群众安居乐业,水资源管理是国家治理的重要任务。
4.确保信息交流。系统化是建立水资源信息系统的成果之一,可以有效降低政府管理成本,从而将特定区域和行业的信息联系起来,在一定程度上实现知识共享,提高水资源管理机构的工作效率,降低水资源管理的运行成本。
5.大数据的特点和价值。大数据的概念最早于2008年在英国提出,大数据处理非常普遍,对原始数据的分析揭示了规律性,现在很多行业都有很多有价值的数据。总结其规律性,预测国民经济和人口福利,并确定相关性,确定大数据中一些事件的共性,可以在很大程度上“预测”未来。大数据分析技术可以系统相关业务模块具备复杂场景下的关联性分析、综合监管及预警告警等功能。以信息化手段,协同水利行业之间的业务应用,提升水利管理能力和提高水利行政管理效率。深入挖掘大型信息技术在水资源建设和管理中的潜在价值,将极大地提高行业的水利信息管理水平,也将对未来科技和经济的发展产生深远的影响。
二、存在问题
目前,大部分水利管理部门基本建成,满足了组织生产和信息化管理的业务需要,而且随着信息化水平的提高,不断深化和完善。由于起步晚、人员相对孤立等客观原因,需要提高信息技术水平和应用深度。
2.1上部结构相对较低
只有不断地投资于水利信息化研究与应用,随着时间才能实现智慧水利。其特点是投入超前,产出交付滞后,短期内无法取得明显成效。让各单位主要领导转变传统观念,加大工作力度,全面规划和合理安排高级管理人员的工作,形成自上而下综合治理的理想局面。信息化工作被称为“一人工作”,其理念需要领导充分理解,制定适合应用的顶层设计和总体规划,形成自上而下的果断实施;如果从清晰、循序渐进的角度出发,就会形成“被动局面,这将使我国水利信息化的发展陷入僵局。
2.2缺乏有效的协调
有效的交互平台主要用于处理水利工作、项目管理、文档等积累的信息,没有一个统一的平台,这些数据就无法有效的链接、处理,最终会造成信息障碍,无法满足行业对有效节约、资源共享和重用的需求。
2.3难以适应发展的要求
经济建设向现代化的转变,水利信息化、水利工程设计等产业更加受到重视,国家高度重视环境保护,对环境影响评价项目所包含的信息有很大的依赖性,由于缺乏可供使用和使用的有价值的数据,开发人员被迫在数据收集的框架内工作。在新的专业和新的水利行业发展条件下,考虑到建设内容和目标的要求,传统的采集方法已经不能适应信息化的要求。
三、可行性分析
3.1水资源现状
水利大数据时代已经到来,高价值体现在一个国家的水资源部门,即形成大数据的产业部门,以满足社会需求,它是提高水利服务质量的手段和基础,一是要摒弃传统的“弱数据理解”,形成适应时代、多年的“强数据理解”。各级水利部门积累了大量宝贵且孤立的信息和数据,建立可靠的数据采集、收集、存储和共享机制,可以使结构化、非结构化的数据形成可持续更新的宝贵资源。数据应用的最大价值在于其开放共享,保证了数据的灵活应用和信息创新,可以解决许多的问题,保证了行业高管的有效决策,提供了更高层次的参考作用与价值。
3.2水资源技术路线
水资源数据库研究大型水资源的利用技术,在技术建设的基础上,设计了基于资源层的四层结构,逻辑技术支持层、服务层和应用层是标准的应用程序接口。作为“数据”的支撑,资源层提供可靠、不断更新的数据存储容量;逻辑覆盖作为数据开发的辅助手段,为异构数据的处理、聚合、传输和交换提供了广泛的应用;公共服务业也是“数据开发”的支柱产业,旨在通过大规模水文数据应用,创造动态的、扩展的服务形式,满足专家数据的基本使用;应用层作为“中间设备接口”是一个支撑层,它能更好地体现水文数据的价值。每个用户都可以在标准的交互平台和应用程序的基础上建立系统接口,有条件地利用大数据实现系统目标,并利用大数据进行数据处理,分析预测与水有关的数据仍集中在数据交换上,受产业和技术发展的制约,远远不能满足复杂的分析预测要求。由于数据混合、复杂度高的特点,以及水电发电固有的结构多样性,在这方面,本文结合改革开放、经济发展和克服技术难题的实践经验,对数据交换技术进行了全面研究,以适应高可用性的特点。随着水利行业大数据的快速增长和高可用性,它具有很强的灵活性,具有高伸缩性、多异构体等特点,建立了一系列大数据发展的关键技术体系。
四、应用展望
4.1正确区分有关概念
在建立水利信息系统时,第一步要了解与水利相关的一些概念。信息是一个大概念,一切现象都可以忽略不计,大数据是信息的形式和载体,可以看作是一个符号。在以往的水信息研究中,水信息的种类和形式是相当复杂的,在水利信息化的理论和实践中,只有通过研究水文以及水文数据的信息化和其中的差异,并根据信息、数据的异同,才能为水利建设做出良好的准备。正确解释水信息的具体含义,明确干旱、水文等水信息的具体内容;并明确了这类信息的来源、特点和用途。严格的区域配水信息、海量水情数据、情报等。
4.2建立信息系统框架
引入和应用现代水资源信息系统的第一步是水利信息化的外在表现和最终结果,因此,水利信息系统建设已成为水利信息化的最终手段,信息系统是一种有效的信息结构和组织。该系统是对数据、水信息和信息的有效设计和处理,其基本逻辑框架包括基础参考层、数据层和平台层、应用层和基础工作、安全体系和标准体系。在我国水利信息化建设过程中,往往强调建立系统基础设施和数据库,而水利信息化如果没有全面的信息资源规划策略,将损害管理系统的实用性和有效性,水利信息化最重要的部分是信息化的总体设计和规划,即信息化框架的建立,这是我国水利信息化的主要技术之一。
4.3大比例尺的应用
随着国家水文信息化理念的进一步发展,大规模信息技术在南方项目管理过程中逐步引入并付诸实施,2019年,基于大数据技术平台,南水北调中线工程建设管理局将进行实时监测,到2020年,可实时监测1432公里的直接工程航道、64个控制闸和97个引导闸、54个回水闸,为中间件项目门的建设开发了一个网络管理应用平台,基于大规模信息技术和GIS技术,可以实时跟踪中线5000多个车辆的信息,大大提高了业务效率。
4.4应用展望
大规模信息技术在水利信息化中的应用是一项艰巨的任务,大数据处理技术与5g技术的融合将是我国发展的重要趋势。利用大数据技术实现水利技术的智能化、自动化和简单化,随着我国水利建设的发展和信息时代的要求,我国大部分水利设施的设计和建设还没有融入大数据技术,水利建设融合大数据技术是必然趋势。
五、结束语
水资源管理是现代水资源开发的基石,水文信息学是我国最重要的战略之一。研究和掌握我国水信息学的现代状况,可以为水信息学的全面发展提供参考,信息科学的建设可以为国家水利事业的发展提供一定的指导,促进水信息学的发展进程。大数据技术是一门迅速发展的最新技术,随着科学研究和应用的发展,广泛应用于水利工程集成管理、科学计算建模、协同设计等领域,数据在水利信息化建设中的地位应用越来越重要,并推动了水利行业的科技进步,这将对水利行业未来的发展产生深远的影响
主要技术有五类。根据查询大数据相关资料得知,大数据分析的主要技术分为以下5类。
1、数据采集:对于任何的数据分析来说,首要的就是数据采集,因此大数据分析软件的第一个技术就是数据采集的技术,该工具能够将分布在互联网上的数据,一些移动客户端中的数据进行快速而又广泛的搜集,同时它还能够迅速的将一些其他的平台中的数据源中的数据导入到该工具中,对数据进行清洗、转换、集成等,从而形成在该工具的数据库中或者是数据集市当中,为联系分析处理和数据挖掘提供了基础。
2、数据存取:数据在采集之后,大数据分析的另一个技术数据存取将会继续发挥作用,能够关系数据库,方便用户在使用中储存原始性的数据,并且快速的采集和使用,再有就是基础性的架构,比如说运储存和分布式的文件储存等,都是比较常见的一种。
3、数据处理:数据处理可以说是该软件具有的最核心的技术之一,面对庞大而又复杂的数据,该工具能够运用一些计算方法或者是统计的方法等对数据进行处理,包括对它的统计、归纳、分类等,从而能够让用户深度的了解到数据所具有的深度价值。
4、统计分析:统计分析则是该软件所具有的另一个核心功能,比如说假设性的检验等,可以帮助用户分析出现某一种数据现象的原因是什么,差异分析则可以比较出企业的产品销售在不同的时间和地区中所显示出来的巨大差异,以便未来更合理的在时间和地域中进行布局。
5、相关性分析:某一种数据现象和另外一种数据现象之间存在怎样的关系,大数据分析通过数据的增长减少变化等都可以分析出二者之间的关系,此外,聚类分析以及主成分分析和对应分析等都是常用的技术,这些技术的运用会让数据开发更接近人们的应用目标
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流