数据分析有非常广泛的应用,这是一个素养贴。典型的数据分析可能包括以下三个步骤:
1.探索性的数据分析,刚得到数据的时候可能杂乱无章,看不出规律性。通过作图、制表、拟合各种形式的方程、计算一些特征量等手段,探索规律性的可能形式,即从什么方向、以什么去发现和揭示隐藏在数据中的规律性。
2.选型分析。在探索性分析的基础上,提出一个或几个可能的模式,然后通过进一步分析选择某个模式。
3.推断分析,通常使用数理统计方法来推断给定模型或估计的可靠性和准确性。数据分析过程实施数据分析过程的主要活动包括识别信息需求、收集数据、分析数据、评估和改进数据分析的有效性。
任何一个数据分析过程都包括四个要素:场景数据工具方法,数据分析的出发点必须来自于某个场景中的需求。根据需求目标(场景),构建分析框架(方法),提取所需数据指标(数据),用合适的工具实现数据。最后提炼结论,给出建议或策略。
数据分析的标准流程通常可分为以下七个步骤:
1.确定目标:数据价值链的第一步必须有数据,然后业务部门就决定了数据科学团队的目标。这些目标通常需要大量的数据收集和分析。因为我们研究的是数据驱动的决策制定,所以我们需要一个可衡量的方法来知道业务正在朝着目标前进。关键指标或绩效指标必须及早发现。
2.确定业务基准:企业应该做出改变来提高关键指标,以实现他们的目标。如果什么都不能改变,就不可能有进步,不管收集和分析了多少数据。确定目标和指标,为项目前期提供方向,避免无意义的数据分析。例如,目标是提高客户留存率,其中一个可以为客户更新他们的订阅率,业务可以通过更新页面的设计、时间和内容来设置提醒邮件和做特别的促销活动。
3.数据收集:撒一张大网的数据,找到更多的数据,尤其是不同渠道的数据,建立更好的模型,找到更可行的意见。大数据经济意味着个人记录往往是无用的,只有当每个记录都可供分析时,它才能提供真正的价值。公司密切监视他们的网站来跟踪用户。;点击和鼠标移动,并通过射频识别(rfid)技术跟踪他们的行动。
4.数据清洗:数据分析的第一步是提高数据质量。数据科学家处理正确的拼写错误、缺失的数据和无意义的信息。这是数据价值链中最关键的一步,即使最好的数据价值分析也有垃圾数据,会产生错误的结果和误导。。不止一家公司惊讶地发现,它的很大一部分客户住在纽约的斯克内克塔迪,以及人口不到7万的小城镇。然而,schenectady的邮政编码是12345,因此它不成比例地出现在几乎每个客户文件数据库中,因为消费者通常不愿意填写他们的在线表格。分析这些数据会导致错误的结论,除非数据分析师采取措施验证并获得干净的数据。。这通常意味着一个自动化的过程,但它并不。;这并不意味着人类可以。;不参与。
5.数据建模:数据科学家建立模型,将数据与业务结果相关联,提出建议并确定业务价值的变化,这是第一步。这是数据科学家成为关键业务的独特专长,通过数据建立模型和预测业务结果。数据科学家必须有很强的统计学和机器学习背景,才能建立科学准确的模型,避免无意义的相关性陷阱和依赖现有数据的模型,他们对未来的预测是无用的。但是统计背景还不够。数据科学家需要更好地了解业务,他们将能够确定数学模型的结果是否有意义和价值。
6.数据科学团队:众所周知,数据科学家很难雇佣。建立一个数据科学团队是个好主意。那些拥有统计学高级学位的人关注数据建模和预测,而团队中的其他人,合格的基础设施工程师,软件开发人员和etl专家,建立必要的数据收集基础设施,数据管道和数据产品,以便数据可以通过报告和仪表板显示结果和业务模型。这些团队通常使用hadoop这种大规模数据分析平台来自动化数据收集和分析,并将整个过程作为一个产品来运行。
7.优化和复制:数据价值链是一个可重复的过程,通过不断改进价值链的业务和数据本身。基于模型的结果,企业将通过数据科学团队测量的结果来推动业务。根据结果,企业可以决定采取进一步的措施,通过数据科学团队改进其数据收集、数据清理和数据模型。企业越快重复这个过程,就能越早地朝着正确的方向前进,从而获得数据价值。理想情况下,经过多次迭代后,模型将生成准确的预测,业务将达到预定义的目标,数据价值链的结果将用于监控和报告,每个人都将着手解决下一个业务挑战。