先来看一个段子:有次聚会当大家谈到手机充电时,一个哥们说自己买了很多条iPhone数据线,家里每个房间插一条,这样自己可以很方便地随时充电……….。在场的MM们大多都没有特别在意他这种充电心得,只是笑笑就过去了。只有一位细心的MM悄悄问他一共买了多少条,他说42条。现在这位MM和这哥们在北京一套总共有42个房间的豪宅里愉快地生活,正准备下个月结婚。
【这就是数据分析】!
再来一个:近日,一小伙专门应聘上海均价最高之一高档小区的物业管理,自己配了扫描枪,每天就盯着小区垃圾堆,看见有条形码就扫描,晚上回家把数据整理出来,得出这小区喝什么水吃什么油买什么衣服。三个月之后,他就把整个小区的消费品类偏好和品牌偏好搞到一清二楚。
【以上算是数据挖掘】。
数据分析和数据挖掘还是有点区别的,虽然这篇文章不是专门论述两者的区别,但还是简单交待一下。
广义的数据分析包括了狭义的数据分析和数据挖掘,所以下面讲的数据分析主要是指狭义的。
数据分析(狭义)相对数据挖掘来说是比较简单和通俗易懂一些,主要实现方法是统计分析方面的知识 ,最常见的做法是假设,然后通过数据分析来证明假设成立,常用汇总、对比、分组、交叉等方式,得到的值包括汇总值、差值、平均值等的。数据挖掘除了统计分析之外,还涉及人工智能方面的技术,常用方式包括决策树,输出模型,神经网络等高端货。
数据分析是一般人都能干的活,而数据挖掘则需要有一定潜质又要经过专业训练才可以胜任的。因此说供水人虽然并不是个个都会做数据挖掘,但都应该具备一定的数据分析思维。
供水企业在生产、经营、管理和服务过程中,会产生很多数据,所以数据分析的对象和应用是相对广泛的,这里仅举几个例子,意在抛砖引玉,希望有经验的同行能有更多、更好的分享。
例1:你做过天气数据的统计和分析吗?
天气数据有什么用?供水同行都知道,天气因素将直接影响供(用)水量需求,在每年用水高峰期这种关联关系更为明显,在高温天气临界区,平均气温每上升1度,炎热就会让用水量大幅增长。
对天气情况分析常见的是气温变化和晴雨天数两种。由于供水企业不是专业的气象部门,所以通常对过去的数据进行比较分析为主,对未来短期预测分析为辅(数据来源也只是靠天气预报)。
当某一时段供(用)水量变化异常时,就要考虑天气情况是否也是异常的,需要对此进行两者之间的关联性,对这个假设作因果求证。常用方法是曲线叠加:例如将日供水量、日平气温数据制成曲线,看看两者的趋势是否基本一致。
对于晴雨天数,常见用法的是将某一阶段数据与历史同期进行对比,对比的结果差异越大,说明因果关系越强。除此之外,利用晴雨天数也可以对未来作一些预测,因为某个地区一年的晴雨天数大致是接近的,如果晴天或雨天在前期多了,那是不是意味着后期就会减少呢?
最后一点我们必须要考虑,除了天气因素还有很多因素会影响供(用)水量变化,例如经济景气程度、供水区域变化、用户数量增减等等,但天气因素的特点是对供水量的影响几乎是全面性的,气温上升或晴天增多将会让各行各业的用水量都增加,反之气温下降或雨天增多,几乎所有用水需求都会下降。而经济景气程度也不至于会造成全面影响,其主要影响工业、商业、特种用水以及外来人口集中区的居民用水等,对于大部分刚需用水的影响不大,例如常住的居民用水、行政、绿化、学校的用水等等。所以说要对某一时段供(用)水量做分析和预判,为什么首先要对天气数据进行分析,因为这个比其他因素的影响要全面得多。
例2 对用户用水量进行排序,你会发现些什么?
例如,每个月抄完水表等售水数据出来后,你按水表口径分类,将所有居民用水的水量用降序进行排序,你会得到一份不同口径居民用户用水量的排名,然后再重点关注排在前面那些用水量超多的用户,例如某个居民用户仅仅是DN15水表,某个月却抄回来1000多吨水,你会想到什么?
A、一个月用这么多,不会是水表故障、发神经吧?
B、是不是抄表员抄错表才搞回来1000多吨?
C、是不是抄表员以前没真正抄过水表,这次一下子把以前欠抄的都抄了回来?
D、是不是用户档案搞错了,实际根本不是DN15水表,而是个DN50大户吧?
E、是不是用户家里没有人住又漏水了,一天24小时不停的漏才有这么大的量啊?
F、是不是用户把水管拉到了其他地方用,搞起了转供、转售水行当?
G、是不是用户家里搞什么小作坊,例如食品加工之类的,才能耗掉这些水?
H、不会是有一帮传销人员聚在一起吧?
I、听说家里搞冰毒才会耗掉这么多的水………….
你做了一个用水量排序筛选,让你发现了一个DN15水表一个月抄回来1000多吨水,然后又让你想到了上面这么多可能发生的事情,是不是有点意思?
同样的如果做一个反向排序,让用水量少的排在前面,再剔除零用水量的用户(或者顺便做一个无用水的占比分析,看看是否合理),那么关注点就落在了这些用水极少的用户身上,尤其是那些水表口径大但用水量又特别少的,是不是又会让你有很多想法,包括水表是不是有故障、用户有没有盗水,抄表员没有抄错表吧、甚至内部人员会不会徇私舞弊等等。
排序筛选是常用的数据分析方法,除了用水量,还可以针对更多,例如把欠费的清单排一下,看看谁欠的费用多,次数多;把水表使用年限进行排序,看看历史最悠久的在用水表是哪一个?
但凡熟悉业务又有分析习惯的人,都会采用数据分析方式来找异常情况,而一旦面对这些异常数据,通常都会产生很多想法,然后顺着这些可能发生的情况再去一一求证,肯定会找到数据背后的真相,如果又能长期坚持这种做法,相信一定能取得令人满意的管理成效。
数据分析的价值可能就在于此。
例3 如果你有管道漏水维修记录,你可以做什么?
如果某一天,你手上拿到了整个公司或某个区域某一时期(例如上一年)所有的管道漏水维修记录,你可以做些什么样的数据分析,你可能最快想到的就是对这些记录做一个分类统计,通常能做出这些分类统计结果:
A、按管材分类统计发生的次数。
B、按管道口径分类统计发生的次数。
C、根据维修地点进行分类,统计各个区域发生的次数。
D、按投入使用年限统计发生次数。
E、按发生漏水的原因、状况进行分类统计。
F、按管道安装队伍进行分类统计。
G、按明漏和暗漏来分类统计…….........
当你做完这些分类统计,也许已经会得到一些初步的结果,例如某种管材漏水率会高一些,或者更复杂一些的组合分析结果:某种管材在某些管径范围让某些人安装在某些区域,其发生漏水机率相对高很多等等。或许能得到这些结果,帮助我们进行辅助参考,已经让我们感到很兴奋和满意,但我要说的是这样的数据分析还是不够全面的,会存在判断失误的风险。
为什么这样说,其道理就是一个区域某段时间内(例如一年)所发生的管道漏水维修记录,仅仅是代表着已经发现的管道漏水故障的修复情况,但不明确还有多少未知的漏水故障,所以统计对象的范围并不具备足够代表性。那该怎么办,难道这些数据就没有意义,如果结合管网漏损率分析就会让结果更加稳妥。例如在有DMA的情况下,一个区域管道漏水维修次数少,且管网漏损率低,那么是相对合理的;如果管道维修次数少,但管网漏损率高,那么是不是代表着还有较多的漏点或有很大的漏点没有找到,这才是让人更为担忧结果。
所以这里要表达的是,单一地去看数据分析的对象、方法、结果可能都是对的,但在应用过程中还要考虑数据分析的范围是否达到足够的广度,分析的层次是否达到足够的深度,否则就会出现片面的、让人误判的分析结果。
还有什么有趣的数据可以分析?
A、算一算供水范围内的住房空置率。设定的一个周期,例如连续六个月,然后把周期内没有用水的居民用户筛选出来,然后算一算这些居民用户所占所有居民用户的比例是多少,这个比例可以作为无用水率的参考值,某种意义也可以代表供水范围的住房空置率。
但这个无用水率可真不是用来做买房参考的,而是一个用水状况的宏观数据基准值之一。定期测算和关注这个数据的变化,可以让管理者心中有数。如果有微观的数据,即在更小的区域获得,例如在DMA区域内也有这样的数据,精细化管理是不是又迈进了一步,相信大家都已经想到可以有N种用法。
B、关注居民用水的户均用水量。这个可以做两个数据,一个是包含所有居民用户的(即包括无用水户的),另一个只是针对有用水用户的。宏观数据可能会通过较长时间观测才能发现一些明显的变化,但微观数据则很容易发现差异。这里以后面这个为例,这个数据至少可以用来观测两个方面变化,一个是户均用水人数的变化,如果用在外来人口密集区域,户均用水量变化是不是代表着每一个水表所住的人多了或者少了;另一个可以用来观测居民生活水平的变化,因为我们知道人民生活水平的上升,其生活用水量也会有一定的增加。如果你掌握了供水范围内各个细分区域的户均供水量情况,同时也做了近年增量趋势图,是不是可以用来作为区域配水管网改造的参考依据,顺便考虑一下自己在哪里买个物业比较合适?
C、如果你有很多个营业厅和比较多的收费人员,同时又掌握每个人收费业务完成数据,是不是可以考虑做一个收费效率参考指标,然后对收费人员工作效率作评价,看看哪一个是业务能手,哪一个营业厅的收费人员已快满负荷,需要考虑增加人手;哪一个营业厅是人员单位效率不足导致业务负荷大,真正需要的是提升个人效率而不是盲目增加人手?
D、如果抄表员的抄表机或抄表软件有数据分析功能,除了抄表轨迹,是不是也查看一下大家每日抄表数量,从而判断是否有个别人对抄表工作过度热爱,一天抄回的水表数大大高于常人。
总而言之,掌握数据,学会分析,总能让我们更加接近真相,让我们不会彷徨与恐慌。
希望以上这些能给您带来参考与帮助。