大云網(wǎng) 新技術(shù)泛在電力物聯(lián)網(wǎng) 正文

電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺

2018-04-17 15:27:59 互聯(lián)網(wǎng)+智慧售電　點(diǎn)擊量：評論 (0)

5 2 3 用電大數(shù)據(jù)分析平臺參照云計(jì)算技術(shù)體系結(jié)構(gòu)與處理工具，并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實(shí)際需要，搭建以分析計(jì)算為主的電力用戶側(cè)大

5.2.3 用電大數(shù)據(jù)分析平臺

參照云計(jì)算技術(shù)體系結(jié)構(gòu)與處理工具，并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實(shí)際需要，搭建以分析計(jì)算為主的電力用戶側(cè)大數(shù)據(jù)管理平臺，其基本架構(gòu)如圖5-24所示，分為應(yīng)用層、私有云計(jì)算層、數(shù)據(jù)管理層。

此框架主要是結(jié)合云計(jì)算技術(shù)，利用 Hadoop搭建電力用戶側(cè)大數(shù)據(jù)管理平臺，在平臺上采用HDFS( Hadoop分布式文件系統(tǒng))、HBase ( hadoop數(shù)據(jù)庫)與Hive( Hadoop數(shù)據(jù)倉庫工具)建立大數(shù)據(jù)存儲系統(tǒng)，在平臺上搭建 MapReduce并行化計(jì)算框架和 Spark內(nèi)存并行化計(jì)算框架作為大數(shù)據(jù)計(jì)算分析系統(tǒng)，對電力用戶側(cè)的大數(shù)據(jù)進(jìn)行分析。

數(shù)據(jù)管理層主要是對數(shù)據(jù)進(jìn)行采集和集成整合。數(shù)據(jù)采集主要包括從智能電表、 SCADA系統(tǒng)和各種傳感器中采集的數(shù)據(jù)，這些數(shù)據(jù)不僅包括電網(wǎng)內(nèi)部的數(shù)據(jù)，還包括大量相關(guān)的數(shù)據(jù)，這些數(shù)據(jù)由不同產(chǎn)商的設(shè)備產(chǎn)生，模態(tài)千差萬別，各單位數(shù)據(jù)口徑不一，形成了海量異構(gòu)數(shù)據(jù)流，加工整合困難。這些數(shù)據(jù)的集成整合主要是指將傳統(tǒng)系統(tǒng)產(chǎn)生的數(shù)據(jù)遷移至私有云平臺，進(jìn)行高效的管理。

電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺

圖5-24用電大數(shù)據(jù)分析架構(gòu)

雖然各廠商都提供了相應(yīng)的應(yīng)用程序編程接口(application pro-gramming interface，API)，但其自動化程度并不高。簡單地使用API對大數(shù)據(jù)進(jìn)行操作效率不高，需要使用第三方工具進(jìn)行操作，如Sqoop和Datanucleus等。Sqoop是一款在Hadoop和關(guān)系數(shù)據(jù)庫之間進(jìn)行相互轉(zhuǎn)移數(shù)據(jù)的工具，利用Sqoop可以使各個(gè)子系統(tǒng)的數(shù)據(jù)在大數(shù)據(jù)平臺上進(jìn)行整合。 Datanucleus是一款開源的java持久化工具，可以對HBase、 Cassandra多種非關(guān)系型數(shù)據(jù)庫進(jìn)行操作。

平臺針對數(shù)據(jù)集成整合這一難點(diǎn)采用Sqoop工具對數(shù)據(jù)進(jìn)行抽取整合工作，將各個(gè)獨(dú)立的系統(tǒng)產(chǎn)生的數(shù)據(jù)及歷史數(shù)據(jù)利用Sqoop抽取整合到Hive與HBase中。使用Datanucleus對列存儲數(shù)據(jù)庫進(jìn)行操作，將基于云計(jì)算的應(yīng)用產(chǎn)生的在線數(shù)據(jù)寫入到HBase中。大數(shù)據(jù)的抽取整合流程如圖5-25所示。

電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺

圖5-25用電大數(shù)據(jù)整合抽取流程

云計(jì)算層利用Hadoop搭建而成，大數(shù)據(jù)存儲在分布式文件系統(tǒng)HDFS中，利用Hive、Pig和HBase對數(shù)據(jù)進(jìn)行管理，電力大數(shù)據(jù)在存儲方面已進(jìn)行了一些研究，例如有文獻(xiàn)提出利用云計(jì)算存儲、運(yùn)算技術(shù)進(jìn)行電力數(shù)據(jù)中心的搭建；有文獻(xiàn)在云計(jì)算平臺上將數(shù)據(jù)映射成數(shù)據(jù)空間的點(diǎn)集，充分利用計(jì)算存儲資源，實(shí)現(xiàn)數(shù)據(jù)集到數(shù)據(jù)中心的布局方案；有文獻(xiàn)在對數(shù)據(jù)進(jìn)行存儲時(shí)考慮到數(shù)據(jù)的安全性，利用HBase高性能優(yōu)勢和現(xiàn)代密碼技術(shù)，將密鑰與密文的管理分離，開發(fā)了基于Ha-doop的智能電網(wǎng)數(shù)據(jù)安全存儲原型系統(tǒng)。該平臺利用HBase存儲電力負(fù)荷數(shù)據(jù)和相關(guān)數(shù)據(jù)， HBase數(shù)據(jù)庫是列為存儲單元的，方便對整列數(shù)據(jù)進(jìn)行查詢，而隨后使用的隨機(jī)森林算法在學(xué)習(xí)過程中需要多次對整列數(shù)據(jù)進(jìn)行讀取計(jì)算，對數(shù)據(jù)的操作需求符合HBase數(shù)據(jù)存儲的特點(diǎn)。

利用并行化計(jì)算模型MapReduce對大數(shù)據(jù)進(jìn)行并行化批量計(jì)算分析，而對數(shù)據(jù)密集型的迭代計(jì)算采用基于內(nèi)存的并行化計(jì)算模型Spark。Spark是一個(gè)開源的分布式集群系統(tǒng)，用于大數(shù)據(jù)的快速處理分析。Spark克服了Hadoop在迭代計(jì)算上的不足，現(xiàn)已成為Apache的頂級項(xiàng)目。Spark提供了一種內(nèi)存并行化計(jì)算框架，框架將作業(yè)所需數(shù)據(jù)讀入內(nèi)存，所需數(shù)據(jù)時(shí)直接從內(nèi)存中查詢，這樣比基于磁盤的MapReduce訪問數(shù)據(jù)的速度快，減少了作業(yè)的運(yùn)行時(shí)間，也減少了IO操作。

并行計(jì)算模型主要是對大量的數(shù)據(jù)進(jìn)行挖掘，其計(jì)算模型主要有MapReduce、Dremel、Dryad和Cascading等，該平臺主要利用Map Re-duce模型對電力用戶側(cè)大數(shù)據(jù)進(jìn)行挖掘分析。

應(yīng)用層主要是利用私有云計(jì)算集群強(qiáng)大的存儲和計(jì)算分析能力為企業(yè)各部門提供決策和指導(dǎo)功能接口。

責(zé)任編輯：電力交易小郭

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

我要收藏

個(gè)贊