電力消費大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺
5.2.3 用電大數(shù)據(jù)分析平臺
參照云計算技術(shù)體系結(jié)構(gòu)與處理工具,并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實際需要,搭建以分析計算為主的電力用戶側(cè)大數(shù)據(jù)管理平臺,其基本架構(gòu)如圖5-24所示,分為應(yīng)用層、私有云計算層、數(shù)據(jù)管理層。
此框架主要是結(jié)合云計算技術(shù),利用 Hadoop搭建電力用戶側(cè)大數(shù)據(jù)管理平臺,在平臺上采用HDFS( Hadoop分布式文件系統(tǒng))、HBase ( hadoop數(shù)據(jù)庫)與Hive( Hadoop數(shù)據(jù)倉庫工具)建立大數(shù)據(jù)存儲系統(tǒng),在平臺上搭建 MapReduce并行化計算框架和 Spark內(nèi)存并行化計算框架作為大數(shù)據(jù)計算分析系統(tǒng),對電力用戶側(cè)的大數(shù)據(jù)進行分析。
數(shù)據(jù)管理層主要是對數(shù)據(jù)進行采集和集成整合。數(shù)據(jù)采集主要包括從智能電表、 SCADA系統(tǒng)和各種傳感器中采集的數(shù)據(jù),這些數(shù)據(jù)不僅包括電網(wǎng)內(nèi)部的數(shù)據(jù),還包括大量相關(guān)的數(shù)據(jù),這些數(shù)據(jù)由不同產(chǎn)商的設(shè)備產(chǎn)生,模態(tài)千差萬別,各單位數(shù)據(jù)口徑不一,形成了海量異構(gòu)數(shù)據(jù)流,加工整合困難。這些數(shù)據(jù)的集成整合主要是指將傳統(tǒng)系統(tǒng)產(chǎn)生的數(shù)據(jù)遷移至私有云平臺,進行高效的管理。
圖5-24用電大數(shù)據(jù)分析架構(gòu)
雖然各廠商都提供了相應(yīng)的應(yīng)用程序編程接口(application pro-gramming interface,API),但其自動化程度并不高。簡單地使用API對大數(shù)據(jù)進行操作效率不高,需要使用第三方工具進行操作,如Sqoop和Datanucleus等。Sqoop是一款在Hadoop和關(guān)系數(shù)據(jù)庫之間進行相互轉(zhuǎn)移數(shù)據(jù)的工具,利用Sqoop可以使各個子系統(tǒng)的數(shù)據(jù)在大數(shù)據(jù)平臺上進行整合。 Datanucleus是一款開源的java持久化工具,可以對HBase、 Cassandra多種非關(guān)系型數(shù)據(jù)庫進行操作。
平臺針對數(shù)據(jù)集成整合這一難點采用Sqoop工具對數(shù)據(jù)進行抽取整合工作,將各個獨立的系統(tǒng)產(chǎn)生的數(shù)據(jù)及歷史數(shù)據(jù)利用Sqoop抽取整合到Hive與HBase中。使用Datanucleus對列存儲數(shù)據(jù)庫進行操作,將基于云計算的應(yīng)用產(chǎn)生的在線數(shù)據(jù)寫入到HBase中。大數(shù)據(jù)的抽取整合流程如圖5-25所示。
圖5-25用電大數(shù)據(jù)整合抽取流程
云計算層利用Hadoop搭建而成,大數(shù)據(jù)存儲在分布式文件系統(tǒng)HDFS中,利用Hive、Pig和HBase對數(shù)據(jù)進行管理,電力大數(shù)據(jù)在存儲方面已進行了一些研究,例如有文獻(xiàn)提出利用云計算存儲、運算技術(shù)進行電力數(shù)據(jù)中心的搭建;有文獻(xiàn)在云計算平臺上將數(shù)據(jù)映射成數(shù)據(jù)空間的點集,充分利用計算存儲資源,實現(xiàn)數(shù)據(jù)集到數(shù)據(jù)中心的布局方案;有文獻(xiàn)在對數(shù)據(jù)進行存儲時考慮到數(shù)據(jù)的安全性,利用HBase高性能優(yōu)勢和現(xiàn)代密碼技術(shù),將密鑰與密文的管理分離,開發(fā)了基于Ha-doop的智能電網(wǎng)數(shù)據(jù)安全存儲原型系統(tǒng)。該平臺利用HBase存儲電力負(fù)荷數(shù)據(jù)和相關(guān)數(shù)據(jù), HBase數(shù)據(jù)庫是列為存儲單元的,方便對整列數(shù)據(jù)進行查詢,而隨后使用的隨機森林算法在學(xué)習(xí)過程中需要多次對整列數(shù)據(jù)進行讀取計算,對數(shù)據(jù)的操作需求符合HBase數(shù)據(jù)存儲的特點。
利用并行化計算模型MapReduce對大數(shù)據(jù)進行并行化批量計算分析,而對數(shù)據(jù)密集型的迭代計算采用基于內(nèi)存的并行化計算模型Spark。Spark是一個開源的分布式集群系統(tǒng),用于大數(shù)據(jù)的快速處理分析。Spark克服了Hadoop在迭代計算上的不足,現(xiàn)已成為Apache的頂級項目。Spark提供了一種內(nèi)存并行化計算框架,框架將作業(yè)所需數(shù)據(jù)讀入內(nèi)存,所需數(shù)據(jù)時直接從內(nèi)存中查詢,這樣比基于磁盤的MapReduce訪問數(shù)據(jù)的速度快,減少了作業(yè)的運行時間,也減少了IO操作。
并行計算模型主要是對大量的數(shù)據(jù)進行挖掘,其計算模型主要有MapReduce、Dremel、Dryad和Cascading等,該平臺主要利用Map Re-duce模型對電力用戶側(cè)大數(shù)據(jù)進行挖掘分析。
應(yīng)用層主要是利用私有云計算集群強大的存儲和計算分析能力為企業(yè)各部門提供決策和指導(dǎo)功能接口。

責(zé)任編輯:電力交易小郭
- 相關(guān)閱讀
- 能源互聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
電力消費大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺
-
電力消費大數(shù)據(jù)智能分析技術(shù)
-
全球能源互聯(lián)網(wǎng),推動綠色能源需求
-
中天科技:決勝分布式儲能之路,匠心布局儲能全產(chǎn)業(yè)鏈
2018-04-13儲能之路 -
杉杉科技10萬噸鋰電池負(fù)極材料項目在內(nèi)蒙古包頭市
-
總投資24.46億元 江鈴集團新能源汽車?yán)ッ骰仨椖块_工
-
【正極材料周報】LG化學(xué)綁定華友鈷業(yè)40億中國設(shè)正極材料廠!三元電池或?qū)⒁唤y(tǒng)鋰電江湖!
-
行駛逾16萬英里 特斯拉電池容量的衰減率不足10%
-
NCA體系三元鋰電池開始在國內(nèi)市場配套乘用車