导语
【演讲主题】电网企业大数据案例分享
【演讲内容】南方电网广州供电局技术专家吴永欢和我们分享了广州供电局在大数据平台建设方面的实例。演讲内容主要包括以下四个方面:
一、企业介绍
二、电网大数据概述
三、电网大数据案例
四、未来展望
吴永欢
01
企业介绍
大家上午好,我是来自广州供电局信息部的吴永欢。今天很荣幸受到星环邀请来参加这次研讨会,也借此机会跟各位同行交流学习。今天我带来分享的主题是电网企业的大数据案例分享,首先我介绍一下我所在的企业——广州供电局。
广州供电局在2012年从原广东电网公司分立,成为南方电网的全资子公司,主要从事广州电网投资、建设与运营,负责广州市11个区的电力供应与服务。广州有电的历史可以追溯到1888年,至今已经有130年的历史,是中国最早有电的城市,也是全国继上海之后第二个有电的城市;我们目前拥有变电站335座,是全国首个拥有300座变电站的省会城市;现在我们的供电客户数已经超过580万,也是中国供电负荷密度最大的城市之一。在2016年广州供电局年供电量已经达到784亿千瓦时,去年应该已经突破800亿千瓦时。我们供电可靠性达到了99.99%,在国际上是处于先进水平。
广州供电局始终不懈努力提高供电保障能力和客户服务水平,为此我们也获得了各方认可,已经连续十七年在广州市社情民意调查中排名第一,位于全球前30%优秀企业行列;也连续四年获得全国供电可靠性A级企业的称号,供电可靠性全国排名前三。
02
电网大数据概述
电网企业主要运用大数据技术,在电力的发、输、变、配、用及调度的生产和管理全过程中,改造传统电网业务,促进电网企业的结构调整,提高管理水平,实现电网企业的跨越式发展。电网大数据可以总结为“3个V”和“3个E”(引用自:中国电机工程学会信息化专委会《中国电力大数据发展白皮书》)。
在“3个V”方面,指的是电网大数据体量大、类型多,以及速度快。随着智能电网的发展,各类智能终端在不断的升级,数据采集频率也在不断加快,从以前的“T+1”模式到后面的小时级、分钟级,甚至到秒级,所以数据体量呈现出指数级的增长。另一方面,电网的业务涉及范围也比较广,数据类型也是非常多,包括企业内部业务系统的结构化数据,以及现场终端采集回来的电流、电压等实时数据,还有大量视频、图片数据等。由于电网的业务特性,对数据的处理实效性要求比较高,例如停电监控和分析。
电网大数据特征“3个E”主要指的是数据即能量,数据即交互,数据即共情。首先数据即能量,指的是电网大数据应用过程,同时也是电力数据能量释放过程。从某种意义上来讲,电网大数据应用可以达到节能的目标,也可以把电网大数据看作是能源基础设施投资。数据即交互指的是电网大数据,不仅仅只是为了满足我们企业内部的应用需求,而需要跟企业外部数据去做交互式融合,才能挖掘出电网大数据更高价值。最后一方面数据即共情,电力企业天然联系着千家万户,始终以客户为中心,来建立客户情感联系,来为客户提供优质、可靠和安全的供电服务。
由于电网大数据的这些特征,我们面临很多挑战,主要是四方面:首先是数据集成程度不高,现在电网行业层面还缺乏比较统一的数据模型标准,各个业务数据口径都还不完全一致,所以数据共享不是特别通畅,导致对大数据价值的挖掘工作带来了比较大的难度。
第二个方面挑战是大数据治理能力不强,现在电网大数据的主要来源是企业内部员工手工录入,以及一些智能终端的自动化采集。由于一些人为失误或者智能终端可靠性不高,导致数据质量问题普遍存在,最终影响数据分析准确性。
第三方面是大数据的基础设施有待完善,随着电网大数据爆发式增长,对大数据基础设施也提出更高的要求。数据的采集、存储和处理等各方面能力,都需要进一步去提高。
最后一方面是数据安全方面的挑战,电网大数据涉及到很多电网客户的隐私,本身数据安全要求就特别高。特别是在大数据时代,数据对外合作日益增多,数据安全形势更加严峻。
03
电网大数据案例
由于电网大数据的这些特征,以及带来的挑战,我们做了很多的实践。因为电网业务涉及范围比较广,内容也比较多,今天我主要分享几个典型案例。首先简单介绍一下我们内部大数据集群,我们把它总结为三个子集群。这三个子集群分别为了实现不同的目标。首先是大数据仓库集群。这个集群主要是为了实现我们大批量数据的采集、存储、处理以及供数,来实现“搬数据”的目标。另外两个集群是拟规划建设的,首先数据中台集群,主要将企业内部的指标报表等功能的计算逻辑进行封装,最后形成服务提供给上层应用去调用,实现“搬计算”的目标。最后一个集群是大数据实验集群,主要运用一些比较敏捷的软件和方法,来让我们内部业务人员可以比较容易的去创建数据创新应用。
围绕这三个集群我们主要构建五方面的能力。首先是数据采集能力,我们所要实现的目标,是解决数据表多、数据量大,以及实效性要求高的问题。我们所采用的解决方案主要是利用基于时间戳的抽取方式来实现大批量数据采集,利用TDT日志解析的方式来实现准实时的数据采集。借助多种采集方式,打造内部多通道并行的数据高速公路。
第二项能力是数据处理能力,我们所要实现的目标是要建设一个高存储量和高吞吐量数据存储池,同时可以优化多源异构数据的处理能力,包括流处理和批处理的能力等,来支持多样化的数据分析需求。我们使用的解决方案主要利用HDFS来做一些大批量数据存储,利用Inceptor来支持PB级数据处理。最后是使用Kafka和实时流处理引擎SlipStream来实现复杂的在线流计算业务。
第三项能力是数据挖掘能力。电网企业是非IT型企业,算是比较传统的企业,我们内部有很多非IT业务人员,但是也希望业务人员可以使用这项能力。因此要实现的目标是保证数据挖掘能力的易用性、开放性和智能化。我们使用的总体解决方案,主要是基于Sophon,使用它的一些拖拽式的建模功能,很方便地让我们内部非IT业务人员来使用,实现易用性。另外这个平台可以整合Python,R语言以及Scala的算法,具有开放性。同时也可以集成像Tensorflow这样的深度学习框架,实现我们未来的一些人工智能的需求。
第四项能力,数据可视化能力。其实数据可视化能力目前在市面上有比较成熟产品跟解决方案,我们所要解决的问题,其实跟数据挖掘能力差不多,也是需要方便我们内部非IT业务人员的使用。我们使用的技术解决方案主要用了一些成熟的可视化工具,例如Tableau,Power BI等,来支持我们内部业务人员的自助分析。
最后一项能力是数据安全能力,数据安全是我们电网企业一项主要的挑战。在这项能力里面,我们所要实现的目标,是实现从数据的产生、使用、归档等整个全过程的安全管控。同时也需要保证对我们已有业务系统侵入性尽量小。我们的解决方案主要是用三大类的安全软件来支撑我们的目标。首先使用数据加密软件来实现数据安全事先防范,使用数据脱敏软件来实现事中的保护,最后使用数据审计软件,来实现事后的数据安全事件跟踪。
基于这五大能力,我们在内部实现不少大数据应用案例,有电力生产方面的,也有关于客户服务的。第一个案例是我们电力生产领域的案例,主要实现电力负荷特征、指标的挖掘。主要解决方案是在利用Sophon提供一些数据挖掘方法,来建立各个地区的电力特征指标,构建预测模型,预测未来用电量以及一些负荷曲线。最终希望可以为我们电网规划和运行提供一些辅助决策。
第二个案例是停电损失风险评估和预警。在这案例里面,我们主要利用历史停电数据结合某个地区的数据,比如该地区的电网结构、用户特征,以及一些天气的数据等,来构建一个评价模型,评价在自然灾害下的停电损失风险,并且可以生成应急预案,提高供电的可靠性。这个案例主要也是基于Sophon平台去建立的,在上面主要构建灾害下设备停运的概率模型,来实现评估和预警。
第三个案例是电网客户服务方面的案例。主要是实现了用电能耗分析,对电网客户用电情况进行一个综合分析。包括行业和区域用电能耗分析,大客户以及居民客户的用电能耗分析。通过这些能耗分析,可以掌握到客户的一些用电特征,最后来指导客户做一些节能减排的措施。这个案例在技术层面比较核心的部分,是使用了ArgoDB,利用它的SSD的加速提高报表查询分析速度,支持多维度的分析。
下个案例是电网客户服务渠道运营分析。电网企业有多种客服渠道,包括实体营业厅、网上营业厅,以及微信营业厅等,客户可以通过不同营业厅来办理业务。在这个案例里面,我们从各个营业厅实时采集工单数据,监控工单的状态,辅助业务人员优化客户服务策略,最终来提高我们的客户服务水平。由于这个例子里面要实现实时的监控,我们是利用Slipstream加Kafka,来实现工单实时采集和分析。
第五个案例是用电账单服务,我们主要实现了大宗工业用户以及居民用电的账单分析。它所提供的服务可以让用户了解自己的用电情况,包括电量电费、用电结构、负载情况等。让用户对自身用电情况有一定的掌握,可以对未来的用电进行规划。通过这些服务,可以进一步提高客户满意度。我们在技术层面核心部分是使用了Hyperbase表,主要是用到它的一些高并发以及毫秒级响应的特性,来实现个性化用电账单服务。
最后一个数据质量提升的例子是我们内部信息化支撑的案例。数据质量对于我们来说也是面临蛮大的挑战。因为我们数据量增长很快,数据的质量一直是存在问题。其实以前一直有用传统技术来解决问题,但是传统技术一个比较大的瓶颈,就是数据质量校验周期会比较长,往往是当数据产生后一周甚至一个月之后,我们才能发现这些问题。因为数据量比较大,我们没法每天实时计算。这一次也是借助星环的技术,通过一些实时采集和处理能力,来缩短我们数据校验的时间,最后能让我们内部人员能及时掌握数据质量情况。
04
未来展望
以上是我今天分享的六个案例,最后我用四个关键词来总结一下我们对电网大数据未来一些展望。
首先是“数据治理”,这是我们一直在开展的一项工作。数据治理主要是确保我们内部数据管的住、用的着,同时保障数据质量和安全问题,我们未来还会持续开展。
第二个关键词是“数据生态”,电网大数据不仅仅只满足于企业内部的应用需求,其实是需要跟外部数据去进行一些交互式的融合,才能产生更高的价值。所以我们需要去营造一个比较良好的数据生态环境,跟我们一些合作伙伴进行合作,让电网大数据产生更高的价值。
第三个关键词是“数据资产”,我们已经意识到数据在呈现一个资产化的形态,如同企业内部的人力资产以及设备资产一样,有很多共性的特征。但是电网企业的数据资产体系还不是很健全,所以构建电网企业数据资产管理体系也是我们目前正在努力的方向之一。
最后一个关键词是“数据运营”,前面也讲到了,当我们有一个比较良好的数据生态环境,企业又拥有优质的数据资产,这时候就需要通过数据运营,一方面可以持续去提高我们供电保障能力以及客户服务水平,同时也可以利用这些数据资产,能给企业带来一些增值服务,让我们电网企业可以持续的发展。