分布式云安全存儲系統(tǒng)的研究與應(yīng)用
- 來源:網(wǎng)絡(luò)空間安全 smarty:if $article.tag?>
- 關(guān)鍵字:分布式,存儲系統(tǒng),應(yīng)用 smarty:/if?>
- 發(fā)布時間:2019-07-07 23:01
摘 要:隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)用戶迅猛增加。如今的互聯(lián)網(wǎng)正處于一個信息爆炸的時代,對信息的存儲和處理導(dǎo)致了海量數(shù)據(jù)的產(chǎn)生。海量分布式云安全存儲系統(tǒng)主要是對海量信息進行存儲和處理,通過多項安全技術(shù)的融合,最終實現(xiàn)安全性高、性能高、業(yè)務(wù)連續(xù)性高的分布式存儲系統(tǒng)。論文在對分布式云安全存儲系統(tǒng)的特點進行深入分析的基礎(chǔ)上,就分布式云安全存儲系統(tǒng)的關(guān)鍵性技術(shù)的實現(xiàn)細節(jié)和設(shè)計模式進行了詳盡的分析和闡述。同時,基于其技術(shù)理論,構(gòu)建了實際的云安全存儲系統(tǒng),并進行了環(huán)境實測,最終實現(xiàn)了預(yù)期的目標。
關(guān)鍵詞:分布式;云安全;存儲系統(tǒng);研究;應(yīng)用
中圖分類號:TP302.1 文獻標識碼:A
Abstract: With the rapid development of information technology, Internet users are increasing rapidly. Nowadays, the Internet is in an era of information explosion, and the storage and processing of information leads to the generation of massive data. Massive distributed cloud security storage system mainly stores and processes massive information, and finally realizes the distributed storage system with high security, high performance and high business continuity through the integration of many security technologies. Based on the in-depth analysis of the characteristics of the distributed cloud security storage system, this paper analyzes and expounds the implementation details and design patterns of the key technologies of the distributed cloud security storage system. At the same time, based on its technical theory, the actual cloud security storage system is constructed, and the environment is measured. Finally, the expected goal is achieved.
Key words: distributed; cloud security; storage system; research; application
1 引言
隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)用戶迅猛增加。如今的互聯(lián)網(wǎng)正處于一個信息爆炸的時代,對信息的存儲和處理導(dǎo)致了海量數(shù)據(jù)的產(chǎn)生。所謂海量數(shù)據(jù),是指數(shù)據(jù)量極大,一般是TB(1012bytes)、PB(1015bytes)、EB(1018bytes)級別的數(shù)據(jù)集合。針對互聯(lián)網(wǎng)中的海量數(shù)據(jù),傳統(tǒng)的存儲技術(shù)和C/S存儲模式已經(jīng)難承其重。
對于海量數(shù)據(jù)而言,幾乎無法實現(xiàn)在單一設(shè)備上的存儲方式,采用分布式的存儲技術(shù)是一種合適的解決方案,其顯現(xiàn)了強大的生命力,得到了企業(yè)界和科學界的廣泛認可。海量信息的存儲不僅對存儲設(shè)備的儲存容量有要求,還需要大規(guī)模數(shù)據(jù)庫來存儲和處理這些信息。因此,在滿足通用關(guān)系數(shù)據(jù)庫技術(shù)要求的前提下,還需要對影響海量數(shù)據(jù)存儲系統(tǒng)性能的存儲模式、安全架構(gòu)、數(shù)據(jù)庫策略和應(yīng)用體系等進行更進一步的設(shè)計考慮。分布式云安全存儲系統(tǒng)主要是對海量信息進行存儲和處理,通過多項安全技術(shù)的融合,最終實現(xiàn)安全性高、性能高、業(yè)務(wù)連續(xù)性高的分布式云安全存儲系統(tǒng)。
2 分布式云安全存儲系統(tǒng)的特點
分布式云安全存儲系統(tǒng)在存儲模式、數(shù)據(jù)庫策略以及安全性方面均具有自身的特點,這些是實現(xiàn)對海量數(shù)據(jù)的高效、安全存儲的重中之重。
2.1 存儲模式
分布式云安全存儲系統(tǒng)采用的是對象存儲(Object-Based Storage, OBS)的存儲模式,其綜合了NAS和SAN的優(yōu)點,且同時具有SAN的高速直接訪問和NAS的數(shù)據(jù)共享等優(yōu)勢,提供了具有高性能、高安全性、跨平臺以及安全的數(shù)據(jù)共享的存儲體系結(jié)構(gòu)。不同存儲模式的比較分析如表1所示。
2.2 數(shù)據(jù)庫策略
數(shù)據(jù)庫管理系統(tǒng)(DBMS)是分布式云安全存儲系統(tǒng)的核心部件,所有對數(shù)據(jù)的控制都需要通過DBMS來實現(xiàn)。針對海量數(shù)據(jù),高性能且安全有效的數(shù)據(jù)存儲方法中可采取的數(shù)據(jù)庫策略主要有分區(qū)技術(shù)和并行處理技術(shù)兩種。所謂分區(qū)技術(shù),就是為了更精細的對數(shù)據(jù)庫對象進行管理和訪問,可以對這些數(shù)據(jù)庫對象進行深入的劃分。其中的數(shù)據(jù)庫對象主要指表、索引以及索引編排表等。所謂并行處理技術(shù),是指為了提高數(shù)據(jù)庫系統(tǒng)的性能,讓其多個處理器協(xié)同工作來執(zhí)行單個SQL語句。
2.3 安全性
隨著數(shù)據(jù)的爆炸式增長,存儲系統(tǒng)的規(guī)模不斷擴大,而存儲設(shè)備的安全性卻一直沒有顯著改善,這給數(shù)據(jù)的持久化存儲帶來了巨大的困難。SSD從SLC到MLC和TLC的安全性一直下滑,磁盤隨著單位面積寫入數(shù)據(jù)越來越多導(dǎo)致安全性無法提高。此外,存儲系統(tǒng)中的冷數(shù)據(jù)的增加遠遠超過了熱數(shù)據(jù)的增加,冷數(shù)據(jù)的安全保存及獲取是存儲系統(tǒng)的重要環(huán)節(jié)。分布式云安全存儲系統(tǒng)采用三副本、跨機器做EC等安全相關(guān)技術(shù)提高了存儲系統(tǒng)中數(shù)據(jù)的冗余度、容錯度和安全性。
3 分布式云安全存儲系統(tǒng)的關(guān)鍵技術(shù)
存儲系統(tǒng)的安全性主要取決于硬盤壽命、容錯度和單位修復(fù)時間。硬盤壽命比較難調(diào)整,且與采購成本掛鉤;容錯度通常與系統(tǒng)的冗余度有關(guān),且直接關(guān)系成本;單位修復(fù)時間是指單塊硬盤損壞的修復(fù)時間,不同的實現(xiàn)方式存在很大差異。以上三點是存儲系統(tǒng)安全性的關(guān)鍵指標。其中,系統(tǒng)的冗余度作為存儲系統(tǒng)安全性指標的重中之重,其實現(xiàn)方式是分布式云安全存儲系統(tǒng)的關(guān)鍵技術(shù)。
保證數(shù)據(jù)冗余度的兩個重要方法是編碼策略和副本策略。在原始數(shù)據(jù)發(fā)生部分丟失的情況下,這兩種策略都可以保證數(shù)據(jù)獲取的正確性。編碼策略是將原始數(shù)據(jù)分塊并編碼生成冗余數(shù)據(jù)塊,其可以保證即使丟失一定量內(nèi)的數(shù)據(jù)塊,原始數(shù)據(jù)仍舊可以獲取到。副本策略是將原始數(shù)據(jù)拷貝一份或者多份進行存儲。
在保證存儲系統(tǒng)冗余度方面,分布式云安全存儲系統(tǒng)可以進行不同的配置方式,主要包括基本模式和高級模式兩種。
3.1 基本模式——三副本方式
三副本方式系統(tǒng)冗余度為3塊硬盤,容錯度為允許3塊硬盤同時損壞2塊,在單位修復(fù)時間內(nèi),同時損壞3塊盤以上,則發(fā)生數(shù)據(jù)丟失。三副本方式是將同一份數(shù)據(jù)拷貝成三份存儲在不同的數(shù)據(jù)節(jié)點上。三副本方式的存儲系統(tǒng)結(jié)構(gòu)圖如圖1所示。
采用三副本模式后,分布式云安全存儲系統(tǒng)的具體實現(xiàn)方式如圖2所示。其中,NameNode節(jié)點為元數(shù)據(jù)節(jié)點,里面主要保存元數(shù)據(jù)信息,例如文件系統(tǒng)目錄樹信息、文件和塊的對應(yīng)關(guān)系、文件系統(tǒng)的更改記錄等內(nèi)容。DataNode節(jié)點為數(shù)據(jù)節(jié)點,主要保存具體的數(shù)據(jù)塊信息。由圖2可知,每個數(shù)據(jù)塊同時存在于三個不同的數(shù)據(jù)節(jié)點中,三個數(shù)據(jù)節(jié)點中同時損壞兩個及以下的數(shù)量,均不會造成數(shù)據(jù)丟失。
DFS的讀操作流程同寫操作流程是相呼應(yīng)的,具體的流程描述有五步驟:
?。?)客戶端與NameNode通訊獲取文件的塊位置信息,其中包括了塊的所有冗余備份的位置信息,即所在DataNode的列表;
?。?)客戶端獲取文件位置信息后直接同有文件塊的DataNode通訊,讀取文件;
?。?)如果第一個DataNode無法連接,客戶端將自動聯(lián)系下一個DataNode;
?。?)如果塊數(shù)據(jù)的校驗值出錯,則客戶端需要向NameNode報告,并自動聯(lián)系下一個DataNode;
?。?)重復(fù)第(2)、(3)、(4)步過程,直至數(shù)據(jù)讀取成功,讀操作完成。
3.2 高級模式——跨機器做EC
在技術(shù)層面上,存儲系統(tǒng)的核心需求是安全性和成本,而這兩者又是相互矛盾的。提升系統(tǒng)安全性降低丟失數(shù)據(jù)的風險,勢必要增加數(shù)據(jù)拷貝的份數(shù),而增加每份數(shù)據(jù)拷貝的份數(shù),又勢必會造成成本的增加。分布式云安全存儲系統(tǒng)采用EC冗余算法來平衡這個核心需求。EC冗余算法是將一份數(shù)據(jù)拆分成M份,并將這M份數(shù)據(jù)代入一個多元線性方程組,算出N份校驗數(shù)據(jù),然后將這M+N份數(shù)據(jù)存儲。在存儲下來的M+N份數(shù)據(jù)中,有任何一份或者多份數(shù)據(jù)發(fā)生損壞,都可以通過這個多元線性方程組將損壞的數(shù)據(jù)算回。使用EC冗余算法的存儲系統(tǒng)最多支持N份數(shù)據(jù)損毀而不丟失數(shù)據(jù)。
采用跨機器做EC的高級模式后,分布式云安全存儲系統(tǒng)的冗余度為(N+M)/N,容錯度為允許N+M塊硬盤同時損壞M塊,在單位修復(fù)時間內(nèi),同時損壞M+1塊盤,才會發(fā)生數(shù)據(jù)丟失。分布式云安全存儲系統(tǒng)通過計算,將M和N均做到比較大的數(shù)值,且M遠遠大于N,這樣使得系統(tǒng)的冗余度很高、容錯度很大,且備份數(shù)又非常低。在一定程度上,很好地平衡了存儲系統(tǒng)的安全性和建設(shè)成本。
4 分布式云安全存儲系統(tǒng)的應(yīng)用
在對分布式云安全存儲系統(tǒng)深入研究的基礎(chǔ)之上,以中央財經(jīng)大學為應(yīng)用場景,將分布式云安全存儲系統(tǒng)進行了實際業(yè)務(wù)環(huán)境的測試和使用。中央財經(jīng)大學全校師生共有2萬人左右,涉及的科研、學工、教務(wù)、人事、組織、財務(wù)、招生、校園卡等信息,數(shù)據(jù)量較大,且數(shù)據(jù)塊較小,因此海量分布式云安全存儲系統(tǒng)是適合該應(yīng)用場景的。具體的配置流程是:采用10臺型號為NS3000-16的存儲服務(wù)器搭建了分布式云安全存儲系統(tǒng),配置為三副本的基本模式,同時對存儲系統(tǒng)的冗余度、容錯度進行了配置?;诜植际皆瓢踩鎯ο到y(tǒng)之上,構(gòu)建了云安全管理平臺,實現(xiàn)了對近200臺虛擬化服務(wù)器的配置、使用和管理,該200臺虛擬服務(wù)器主要部署了中央財經(jīng)大學廣大師生相關(guān)的應(yīng)用系統(tǒng)。在構(gòu)建之初,對分布式云安全存儲系統(tǒng)的容量、冗余度和容錯度分別進行了驗證性測試,均達到預(yù)期效果。系統(tǒng)啟用至今已經(jīng)2年多了,雖出現(xiàn)過硬件損壞但均未造成數(shù)據(jù)丟失,具有良好的穩(wěn)定性和安全性。由于該存儲系統(tǒng)主要是面向中央財經(jīng)大學的全體師生,數(shù)據(jù)來源較為單一,其在海量數(shù)據(jù)的存儲和安全管理方面的優(yōu)勢還有待在實際使用中進一步驗證和測試。
5 結(jié)束語
本文在對分布式云安全存儲系統(tǒng)的特點進行深入分析的基礎(chǔ)上,就分布式云安全存儲系統(tǒng)的關(guān)鍵性技術(shù)的實現(xiàn)細節(jié)和設(shè)計模式進行了詳盡的分析和闡述。同時,基于其技術(shù)理論,構(gòu)建了實際的存儲系統(tǒng),并進行了環(huán)境實測,最終實現(xiàn)了預(yù)期的目標。通過對分布式云安全存儲系統(tǒng)的細致研究,將其應(yīng)用到了實際的工作環(huán)境中,并計劃在今后的實際使用過程中不斷的完善之前的研究內(nèi)容,繼續(xù)攻克新的技術(shù)難點,推動分布式云安全存儲系統(tǒng)的進一步發(fā)展和完善。
參考文獻
[1] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al.. Google BigTable—A Distributed Storage System for Data[C]. OSDI, 2006.
[2] 劉琨,李愛菊,董龍江.基于Hadoop的云存儲的研究及實現(xiàn)[J].微計算機信息, 2011.
[3] Jeffrey Dean, Sanjay Ghemawat. MapReduce:Simplied data processing on large clusters [C]. Proceedings of the 6th Symposium on Operating System Design and Implementation. New York: ACM Press. 2004.
作者簡介:
楊翠翠(1985-),女,漢族,河北衡水人,北京工業(yè)大學,研究生,工程師;主要研究方向和關(guān)注領(lǐng)域:計算機網(wǎng)絡(luò)與應(yīng)用。
邵大鵬(1984-),男,漢族,吉林德惠人,北京工業(yè)大學,研究生,工程師;主要研究方向和關(guān)注領(lǐng)域:信息安全。
周濤(1972-),男,漢族,吉林長春人,西安電子科技大學,本科,工程師;主要研究方向和關(guān)注領(lǐng)域:計算機網(wǎng)絡(luò)與應(yīng)用。
呂美敬(1988-),女,漢族,山東濟寧人,華北電力大學,研究生,工程師;主要研究方向和關(guān)注領(lǐng)域:計算機網(wǎng)絡(luò)與應(yīng)用。
楊翠翠 邵大鵬 周濤 呂美敬
