扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
如何浅析大数据预处理,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
创新互联IDC提供业务:成都温江机房,成都服务器租用,成都温江机房,重庆服务器租用等四川省内主机托管与主机租用业务;数据中心含:双线机房,BGP机房,电信机房,移动机房,联通机房。数据分析一般分为两条主线:
第一条主线是数据层面
第二条主线是业务层面
数据分析的一般步骤:
产生数据—>收集数据—>存储数据—>提取数据—>数据预处理—>数据分析—>数据可视化—>数据报告的解释说明
一、数据预处理的必要性
目前,数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上,数据预处理对数据挖掘十分重要,一些成熟的算法对其处理的数据集合都有一定的要求:比如数据的完整性好,冗余性小,属性的相关性小等。
数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘算法挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集的数据通常是“脏”数据。
二、数据存在的问题
不完整: # 缺少数据值 #缺少一些重要属性 #仅包含聚集数据
有噪声:#包含错误或者孤立点 #例如,工资=-100
数据不一致:#在编码或者命名上存在差异 #例如,过去的等级“1,23″而现在的等级“A,B,C #重复记录间的不一致性
三、数据存在问题的原因
不完整数据的成因
数据收集的时候就缺乏合适的值
数据收集时和数据分析时的不同考虑因素
人为/硬件/软件问题
噪声数据(不正确的值)的成因
数据收集工具的问题
数据输入时的人为计算机错误
数据传输中产生的错误
数据不一致性的成因
不同的数据源
违反了函数依赖性
四、预处理重要性
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
例如,重复值或者空缺值将会产生不正确的或者令人误导的统计
数据仓库需要对高质量的数据进行一致地集成
PS:数据预处理是数据分析流程中工作量大的
五、数据预处理的常规方法
1数据清洗
去掉噪声和无关数据
2数据集成
将多个数据源中的数据结合起来存放在一个一致的数据存储中
3数据变换
把原始数据转换成为适合数据挖掘的形式
4数据归约
主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,
离散化和概念分层等
浅析下实际工作中数据分析的预处理阶段:
数据层面的分析:
数据预处理:【空值,缺失值,异常值等】—>处理方法主要是删,填(一般填中位数,均值等)
预处理的逻辑操作:一般逻辑顺序如下
1.异常值:测量值减去均值大于2倍的标准差,我则认为这是异常值。—>箱型图也能看出异常值。datahoop跑箱型图也能看出异常值。
也可以不处理:不处理也要说明理由。但是主要看占比和实际业务情况。记住现实生活中重要的一点:存在即合理。
2.数据标准化:把数据缩放。先构造新变量后再做标准化,防止量纲变大影响数据模型算法。
3.量纲:量纲的大小变化会影响大多数,自变量波动很大时会影响大多数数据模型算法。所以我们要做数据标准化。数据标准化就是把所有数据归于一个范围区间内。—>Z值公式:自变量x=(原值减去均值)除以标准差。
4.共线性:目的是降维,共线性——相关系数矩阵。
相关系数小于0.3即为弱相关。相关系数0.7到0.9左右的话即认为是强相关。
做算法之前,一定要去看相关性。
想要降相关性的方法—>一般有两种方法:1.增大样板容量的量2.构造新变量(增量法和比值法)—>降维(因子分析和主成份分析)。
主成分分析与因子分析的区别:
主成分分析:主成分分析就是设法将原来众多具有一定相关性,重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽可能地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量分解成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
因子分析:因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体说,就是要找出某个问题中科直接测量的具有一定相关性的诸指标 ,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子状态。
因子分析只能解释部分变异,主成分分析能解释所有变异 。
数据预处理的思路一定要完整,要给出数据预处理的处理理由。
举例练习:活用Excel2016版本以上,基本上都有数据分析的功能。
删除空值
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联行业资讯频道,感谢您对创新互联的支持。
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流