发布日期:2016-11-30 10:34:10 作者:华腾信息
(作者:Elena Sigacheva 来源:网络大数据)
在大数据的时代,很多公司通过采用数据驱动方式进行决策。在本文中我想谈一下我们在数据分析过程中三种常见失误:过快–急于求成、过量–图囵吞枣、过度–信息过载。
过快:急于求成
还没找到实际问题就提出解决方案
不要担心在定位问题上花费太多时间。关于越早开始行动,越能提前完成项目的理论不一定正确,如果未能充分理解关键问题可能会浪费更多时间。无论你是在思考一个新的产品特性,对公司未来发展方向的战略决策,建立机器学习模型,还是给你的同事写邮件,都要确保你有花时间去了解项目的真正需求,而不是浪费了大量时间和精力后才发现方向错了。
别忘了,你所要解决问题的类型决定了对应的解决办法。比如在数据科学领域,建立模型前必须要了解该模型是为了加强调用(你的模型在多大程度上可以反馈特定数据),还是加强准确性(在所有正向预测中,有多少是准确的)。从最初开始定位项目目标有助于增强模型的准确性,降低漏报(针对调用)及报错(针对准确性)发生的可能性。
《哈佛商业评论》一篇相关文章推荐了以下方法帮助你解决真正问题>>>Are You Solving the Right Problem?
第一步:设定解决方案的需求
第二步:调整该需求
第三步:将问题情境化处理
第四步:写下问题陈述
另一个著名方法是MBA项目教授的“五问法”>>>MBA项目教授的“五问法” 一种由丰田集团开发的问题解决技巧,有助于通过重复拷问“为什么”来触及问题的根源。
过量:图囵吞枣
对于重要的和无关紧要的指标不做区分
生活在大数据时代,我们能通过大量工具追踪各类用户活动,拥有各种指标来定义每一个用户的行动。然而有多少指标是真正有用的?你能够通过观测这些指标来得出可行的方案么?
重要的是质量而非数量。比起追踪全部的数据,不如试着找出那些真正能够衡量产品健康程度并加以改善的关键绩效指标(KPI)。根据商业模式,公司目标和产品生命周期,决定哪些KPI是你需要关注的重点。
我推荐大家了解下Dave McClure的演讲,他将项目开发的指标分成了五类:
用户获取
用户激活
用户留存
用户推荐
收益增加
Dave McClure的演讲>>>Customer Lifecycle: 5 Steps to success
另一个知名的极简方法是《精益数据分析》(Lean Analytics)中提到找到“第一关键指标”>>>Video: Lean Analytics: One Metric That Matters (OMTM)
过度:信息过载
试图发现根本不存在的模式
因为我们的直觉并不总是对的,而数据有时令人惊讶,尽管我们一直在寻求通过数据驱动进行决策,应用常识也很重要。要记住,模型世界并不是世界本身。你的模型存在假设和局限性,有时这些会将你引入歧途。不管模型告诉你什么,无论是肯定了你的预测还是告诉你特殊结果,你都要用自己的判断力,思考预测正确的概率以及信号的强烈程度。
有时候被发现的并不是“真相”。我们可能没有意识到,自己自己有时在无意识的寻找不存在的信号。通过了解行业的更多方面,竞争格局,宏观经济因素,周期性影响和其他因素有助于更准确的设定增长目标并依据数据得出科学的结论。例如,某些参与指标的下降不一定是消极型号,可能只是周期性影响,客户投诉的增加可以是一个健康增长的迹象,因为它体现了用户基数的上升。
“相关性不一定是因果关系”在统计学中,这用来强调两个变量之间的相关性并不意味着一个因素会影响另一个。有时人们阅读博客是为了优化他们的数据驱动决策,有时事情就这么发生了。