- 相關(guān)推薦
基于伯努利大數(shù)定律的云存儲數(shù)據(jù)方法研究
摘 要:隨著科技水平的提高,對云存儲服務(wù)的可靠性、安全性和穩(wěn)定性都有了更高的要求。面對云存儲服務(wù),如何優(yōu)化資源配置,進而提高用戶的體驗質(zhì)量,本文提出了基于大數(shù)定律的云存儲方法,具體方法是用伯努利大數(shù)定律按照存儲頻率,根據(jù)歷史信息確定用戶對資源的需求,然后進行再分配,從而減少了數(shù)據(jù)訪問延遲。
關(guān)鍵詞:大數(shù)定律;云存儲;數(shù)據(jù)分配
中圖分類號:TP399 文獻標識碼:A
Abstract:with the improvement of science and technology,there are higher requirements for the reliability,security and stability of cloud storage service.In terms of cloud storage service,how to optimize the allocation of resources and to improve the quality of user experience. This paper proposes a method of cloud storage based on the Law of Large Numbers,in which the concrete way is to determine and redistribute users' demand for resources based on the frequency of storage and historical information by means of Bernoulli LLN,thereby reducing the data access delay.
Keywords:Law of Large Numbers (LLN);cloud storage;data distribution
1 引言(Introduction)
云計算的發(fā)展在現(xiàn)如今的信息技術(shù)中應(yīng)用越來越廣泛,云存儲服務(wù)[1]也憑借著它的高擴展性、高可靠性、成本低、方便數(shù)據(jù)管理的諸多優(yōu)勢受到人們的青睞,與云服務(wù)相關(guān)的產(chǎn)品也越來越受到用戶的喜愛。云存儲系統(tǒng)[2-4]是一個以數(shù)據(jù)存儲和管理為核心提供云計算能力的高性能計算系統(tǒng)。它可是實現(xiàn)對于海量數(shù)據(jù)的采集、管理和保護等功能。用戶可以通過云存儲實現(xiàn)不同區(qū)域,不同時間的資源共享和互動,并且通過應(yīng)用權(quán)限的控制、傳輸加密、信息加密和數(shù)據(jù)隔離技術(shù)這些技術(shù)保證數(shù)據(jù)的安全性。
在享受大量數(shù)據(jù)在云存儲服務(wù)中的便利的同時,其對于數(shù)據(jù)的訪問速度也有了更高的要求。由于在云端人們不斷的把數(shù)據(jù)上傳保存上去,在海量的存儲空間中對數(shù)據(jù)信息進行存儲。隨著存儲的數(shù)據(jù)量越來越大,對于數(shù)據(jù)的訪問時間也就越來越長。云存儲系統(tǒng)的DBAS結(jié)構(gòu)為B/S三層體系結(jié)構(gòu),分別是用戶層、應(yīng)用層、數(shù)據(jù)存儲層。在數(shù)據(jù)存儲層存儲大量的數(shù)據(jù)信息和數(shù)據(jù)邏輯,所有與數(shù)據(jù)有關(guān)的安全、完整性控制、數(shù)據(jù)的一致性、并發(fā)操作都是在這層完成的。B/S結(jié)構(gòu)的特點是分布性強,維護方便、開發(fā)簡單并且共享性強、總體擁有成本低等特點。但是數(shù)據(jù)安全性問題,以及數(shù)據(jù)傳輸速度慢等的缺點也顯而易見。由于系統(tǒng)期望用戶可以從云存儲中及時的獲得想要的數(shù)據(jù),因此減少用戶在對數(shù)據(jù)進行訪問的時候造成訪問延遲成為數(shù)據(jù)資源分配有待解決的問題。
目前針對云存儲中的數(shù)據(jù)資源分配問題,研究者們提出了各種不同的云數(shù)據(jù)存儲方案。祁志陽[5]從經(jīng)濟學(xué)原理的角度分析了云計算的經(jīng)濟學(xué)模型,以用戶對資源評價的相似度為約束條件進行資源調(diào)度管理,結(jié)合經(jīng)濟學(xué)的超邊際分配方法對資源進行分配的。由于在建模過程中數(shù)據(jù)是靜態(tài)的,而在物理環(huán)境下數(shù)據(jù)是動態(tài)形式,會造成數(shù)據(jù)不準備等缺點。Siva ThejaMaguluri[6]根據(jù)一個隨機的過程,如果作業(yè)到達時請求訪問資源,采用加入最短的隊列算法和MaxWeight調(diào)度選擇算法,建立了一個負載均衡,以便在資源利用的過程中提高吞吐量。Fabien Hermenier[7]提出了一種通過減少虛擬機遷移和分配到主機的云計算時間的方法,以提升資源利用率;诖,本文的主要工作要工作有:
(1)通過歷史訪問痕跡對用戶進行分類。由于不同類型用戶對于寬帶、延遲等的要求不同,所以需要提供的服務(wù)也不一樣。不同類型用戶有不同的需求,可以根據(jù)歷史信息計算各類型用戶需求量。
(2)應(yīng)用伯努利大數(shù)定律確定各類用戶對數(shù)據(jù)的需求,根據(jù)需求分配存儲資源。
2 數(shù)據(jù)存儲(Data storage)
2.1 云存儲數(shù)據(jù)的資源配置
在云存儲數(shù)據(jù)資源配置的過程中,涉及數(shù)據(jù)的采集、數(shù)據(jù)維護、數(shù)據(jù)的存儲方式等多個要素,它們彼此之間的相互協(xié)作構(gòu)成了云存儲數(shù)據(jù)的資源配置過程。然而,不同用戶對云存儲的資源進行上傳和下載的過程中,對資源的需求也不同,對需要云服務(wù)數(shù)據(jù)的配置也會有不同的要求,這樣就加大了資源配置的復(fù)雜性。從用戶的角度來說,對需求的服務(wù)造成延時,會降低用戶的使用效率,同時,對云存儲服務(wù)器也會造成負載不均衡的狀態(tài)。
因此,本文通過訪問痕跡對于每一類的數(shù)據(jù)需求進行分類,在流量約定設(shè)置的優(yōu)先級里,一些特定的網(wǎng)絡(luò)數(shù)據(jù)流也需要定義服務(wù)質(zhì)量。比如多媒體數(shù)據(jù)流要求有保障的通過量;IP電話則需要嚴格的抖動和延遲限制;在遠程外科的手術(shù)中則要求有可靠保證的可用性。除了這些特定的數(shù)據(jù)服務(wù)外,對于一般的普通用戶而言也需要要有針對性的數(shù)據(jù)服務(wù)。可以通過訪問痕跡對每一組數(shù)據(jù)的內(nèi)容進行分析,對數(shù)據(jù)內(nèi)容可以按興趣愛好、年齡、性別、工作性質(zhì)等大致分成幾類。對于這些訪問的數(shù)據(jù)用伯努利大數(shù)定律計算出每一類的需求量,從而確定服務(wù)器存儲數(shù)據(jù)內(nèi)容的優(yōu)先級。
根據(jù)用QoS服務(wù)分析每個傳送的報文內(nèi)容,將這些報文歸類到以CoS(分類的標準)值來表示的各個數(shù)據(jù)流中,對它進行標注。
由于云計算環(huán)境具有虛擬化的特點,把硬件物理資源虛擬化為虛擬服務(wù)資源,這樣可以對虛擬服務(wù)資源利用軟件程序進行重新配置,并通過配置子程序?qū)崿F(xiàn)不同用戶的需求。
2.2 根據(jù)伯努利大數(shù)定律計算量建立存儲結(jié)構(gòu)
在伯努利大數(shù)定律計算的數(shù)據(jù)量建立的存儲結(jié)構(gòu)中,按照計算的數(shù)值,云計算服務(wù)系統(tǒng)被劃分為無數(shù)個資源池。這些資源池不只是存儲資源,還要對已有的資源池進行管理。每一個資源池里,信息管理系統(tǒng)對資源中分類的數(shù)據(jù)信息進行統(tǒng)一管理。
如圖1所示:客戶端和服務(wù)端兩部分構(gòu)成了伯努利大數(shù)定律計算數(shù)值建立的存儲結(jié)構(gòu)。
下面給出伯努利大數(shù)定律的計算公式:
設(shè)定μ是n次獨立試驗中事件A發(fā)生的次數(shù),且事件A在每次試驗中發(fā)生的概率為P,則對任意正數(shù)ε>0,則成立。
其中公式中的n是訪問的數(shù)據(jù)量,μ指的是在n次訪問的數(shù)據(jù)量中某一類型在固定的時間內(nèi)訪問數(shù)據(jù)的次數(shù),且A是每次實驗中發(fā)生的概率為P。
相應(yīng)的根據(jù)伯努利大數(shù)定律確定的數(shù)據(jù)量的值確定的存儲結(jié)構(gòu)的步驟:
Step1:對參數(shù)進行初始化,設(shè)定任務(wù)的數(shù)量和屬性;
Step2:根據(jù)瀏覽器的訪問記錄計算當前的訪問數(shù)據(jù)值;
Step3:根據(jù)興趣愛好,性別、年齡將數(shù)據(jù)資源劃分為幾類;
Step4:通過伯努利大數(shù)定律計算每一種類型的所占比;
Step5:依據(jù)每一種類型的所占總訪問量資源的比重重新對云存儲數(shù)據(jù)的方式進行設(shè)置。
3 實驗與分析(Experiment and analysis)
3.1 實驗環(huán)境
針對本文所提出的根據(jù)伯努利大數(shù)定律的云存儲數(shù)據(jù)方法,本文在QoS服務(wù)的基礎(chǔ)上,通過瀏覽器的訪問數(shù)據(jù)痕跡進行了仿真實驗,并計算了幾種不同類型的用戶對數(shù)據(jù)訪問量的數(shù)值。在實驗過程中,主機的內(nèi)存為8GB,硬盤為520GB,操作系統(tǒng)為windows 10。本文提出的基于伯努利大數(shù)定律的云存儲模型與文獻中[5]的信譽度約束下的超邊際約束的云存儲資源分配模型與文獻[6]最短隊列算法進行對比,通過在執(zhí)行任務(wù)的平均時間t和負載均衡度σ作為指標來衡量QoS服務(wù)質(zhì)量的性能。因此有如下定義:
定義1:t表示執(zhí)行任務(wù)的平均時間,在資源上執(zhí)行任務(wù)n所用的整體的時間T,max{tci}表示在任務(wù)集T中完成最后一個任務(wù)的時間,min{tcj}表示在任務(wù)集T的第一個任務(wù)開始的時間,則有如下公式:
定義2:σ表示負載均衡度的大小,即云服務(wù)資源處理任務(wù)所需時間的方差L與帶處理任務(wù)數(shù)n的比值。其中vli表示虛擬機負載量,m表示虛擬資源的數(shù)量,avlc表示虛擬服務(wù)資源的平均負載值,則:
σ的值越小,說明負載均衡的性能越好。反之,性能越差。
3.2 性能分析
本文選定了50的虛擬服務(wù)系統(tǒng),通過比較伯努利大數(shù)定律的云存儲數(shù)據(jù)的方法與信譽度約束超邊際分析云存儲數(shù)據(jù)方法和采用對短隊列算法進行比較。選取50的虛擬服務(wù)器,將任務(wù)數(shù)量從50到1000個獨立任務(wù)構(gòu)成的任務(wù)集,對執(zhí)行任務(wù)的平均時間t和負載均衡度σ的進行分析得出以下量表數(shù)據(jù)信息,如圖2和圖3所示。
圖2可以看出:用伯努利大數(shù)定律算法比信譽度約束算法和最短隊列算法執(zhí)行任務(wù)的平均時間越來越少,曲線也更平穩(wěn)。
在圖3中,最短隊列算法的負載均衡度較大,變化幅度也大,不穩(wěn)定;在信譽度算法和大數(shù)定律的算法中兩者的負載均衡度差距不是很大,但是大數(shù)定律的曲線更平穩(wěn)。因此,用伯努利大數(shù)定律算法能更好的提高資源利用率,是云服務(wù)系統(tǒng)的負載均衡達到更好的效果。
仿真結(jié)果表明,對于云服務(wù)數(shù)據(jù)存儲的資源配置問題,依據(jù)伯努利大數(shù)定律的數(shù)值結(jié)果進行分配,使云計算資源節(jié)點的使用率達到最佳,減少了延遲,并提升了任務(wù)完成時間。
4 結(jié)論(Conclusion)
本文分析云服務(wù)數(shù)據(jù)存儲方式在資源配置過程存在負載不均衡問題進行了研究,提出了一種基于大數(shù)定律的云存儲數(shù)據(jù)方法,給出了思路和過程。通過對歷史訪問數(shù)據(jù)的分類和用伯努利大數(shù)定律的計算,計算了不同類型的數(shù)據(jù)訪問量的數(shù)值,并加以分析。實驗表明本方法對數(shù)據(jù)訪問量的計算,可以以此為依據(jù)對數(shù)據(jù)資源進行合理分配。提高了資源利用率,減少訪問延遲。
參考文獻(References)
[1] 冬瓜頭(張東)大話存儲II[M].北京:清華大學(xué)出版社,2011:22-24.
[2] MATHER T,KUMARASWAMY S,LATIF S.Cloud security and privacy:an enterprise perspective on risks and compliance[M].Cloud Security and Privacy:An Enterprise Perspective on Risks.Sebastopol,CA:OReilly Media,2009:35-72.
[3] 傅穎勛,羅圣美,舒繼武.安全云存儲系統(tǒng)與關(guān)鍵技術(shù)綜述[J].計算機研究與發(fā)展,2013,50(1):136-145.
[4] 李暉,孫文海,李鳳華,等.公共云存儲服務(wù)數(shù)據(jù)安全及隱私保護技術(shù)綜述[J].計算機研究與發(fā)展,2014,51(7):1397-1409.
[5] 祁志陽,馬滿福.信譽度約束下超邊際分析的云存儲[D].西北師范大學(xué),2015.
[6] HuberN,BrosigF,Kounev S.Model-based self-adaptive resource allocation in virtualized environment[J].in:SEAMS,ACM,2011:90-99.
[7] DuPontC,GiulianiG,HermenierF,et al.Anenergyaware framework for virtual machinePlacement in cloud federated data centers[C].Future Energy System:WhereEnergy,Computing and Communication Meet (e-Energy),2012 Third International Conference on.IEEE,2012:1-10.
作者簡介:
陳維華(1978-),女,碩士,副教授.研究領(lǐng)域:物聯(lián)網(wǎng)技術(shù)及應(yīng)用.
何彩虹(1980-),女,碩士,工程師.研究領(lǐng)域:物聯(lián)網(wǎng)技術(shù)及應(yīng)用.
【基于伯努利大數(shù)定律的云存儲數(shù)據(jù)方法研究】相關(guān)文章:
大數(shù)據(jù)下茶企物流管理體系優(yōu)化研究08-18
讀《大數(shù)據(jù)時代》有感:大數(shù)據(jù)與小生活08-18
基于校園一卡通數(shù)據(jù)系統(tǒng)的學(xué)生行為分析研究08-19
云環(huán)境下基于蟻群算法的動態(tài)容錯技術(shù)研究08-19
基于Verilog HDL設(shè)計的自動數(shù)據(jù)采集系統(tǒng)04-12
基于Small RTOS51的數(shù)據(jù)采集器設(shè)計04-12
從數(shù)據(jù)挖掘走向大數(shù)據(jù)演講稿08-18
基于高技能型人才培養(yǎng)的高職教育考試類型與方法研究08-22
基于核心素養(yǎng)培育的綜合素質(zhì)評價研究08-21
嵌入式移動數(shù)據(jù)庫研究08-19