?大數(shù)據(jù)背景下的數(shù)據(jù)安全研究
- 來源:網(wǎng)絡(luò)空間安全 smarty:if $article.tag?>
- 關(guān)鍵字: smarty:/if?>
- 發(fā)布時(shí)間:2018-03-06 11:24
摘 要:大數(shù)據(jù)的迅速走熱使得大數(shù)據(jù)的安全問題至關(guān)重要。論文首先從大數(shù)據(jù)帶來的新風(fēng)險(xiǎn)和挑戰(zhàn)為出發(fā)點(diǎn),分析了傳統(tǒng)數(shù)據(jù)安全和大數(shù)據(jù)安全研究的聯(lián)系與區(qū)別,著重研究了大數(shù)據(jù)背景下的安全策略問題,包括對傳統(tǒng)數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)技術(shù)的研究、差分隱私技術(shù)的原理和實(shí)施性分析等,進(jìn)而提出了大數(shù)據(jù)環(huán)境下的應(yīng)用體系和信息體系的安全研究方案。
關(guān)鍵詞:流動(dòng)性威脅;差分隱私;安全沙箱;APT
中圖分類號(hào): TP39 文獻(xiàn)標(biāo)識(shí)碼:A
Research on Data Security Based on Big Data
Tong Duan, Lv Jie, Xu Hong
(School of Information Engineering, Nanjing University of Finance & Economics, Jiangsu Nanjing 210046)
Abstract The rapid heat of big data makes security issues critical. Starting with the new risks andchallenges posed by big data, this article analyzes the relationship and difference of traditional datasecurity and big data security, focusing on security policy issues under the background of big data,including the research of the traditional data backup and data recovery technology and the principle andimplementation analysis of differential privacy technology. And then put forward the application system ofbig data environment and the security research scheme of information system.
Key words Liquidity Threat; Differential Privacy; Sandbox; Advanced Persistent Threat
1 引言
隨著信息技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)規(guī)模的迅速擴(kuò)張,一些安全性問題日益明顯,諸如未經(jīng)授權(quán)數(shù)據(jù)集的使用和訪問、對大量可能敏感數(shù)據(jù)的提取和使用工具所產(chǎn)生的安全性問題等。當(dāng)今社會(huì)很多無效率事例都能暴露人們的隱私,例如在銀行自動(dòng)取款機(jī)前、超市便利店、機(jī)場安全線和城市交叉口等地方,人們都處于攝像機(jī)的監(jiān)視之下。一旦這些資源是聯(lián)網(wǎng)的,這些相關(guān)聯(lián)的數(shù)據(jù)流就可能被人竊取而濫用。除此之外,作為一個(gè)高成本效益的代理平臺(tái) — 云媒體,可能會(huì)啟動(dòng)僵尸網(wǎng)絡(luò)或應(yīng)用大規(guī)模并行程序來破解密碼系統(tǒng)[1] 。劃分邊界是傳統(tǒng)的網(wǎng)絡(luò)安全解決方案的基本思想,這種思想主要是通過在內(nèi)外網(wǎng)邊界建立一些網(wǎng)關(guān)設(shè)備或網(wǎng)絡(luò)流量設(shè)備來解決安全問題。但是隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)和云服務(wù)技術(shù)的出現(xiàn),各種移動(dòng)終端可以在WiFi網(wǎng)絡(luò)和4G網(wǎng)絡(luò)自由穿梭,網(wǎng)絡(luò)邊界實(shí)質(zhì)上已經(jīng)消亡了。
大數(shù)據(jù)的走熱導(dǎo)致人們對數(shù)據(jù)保護(hù)和數(shù)據(jù)隱私問題的關(guān)注度加深,收集大量數(shù)據(jù)的責(zé)任機(jī)構(gòu)和組織必須確保它的安全,確保數(shù)據(jù)不會(huì)落入未授權(quán)的個(gè)人手中。大數(shù)據(jù)背景下發(fā)生的網(wǎng)絡(luò)攻擊和泄密事件的范圍更廣,影響更深, 因此大數(shù)據(jù)背景下的信息安全尤為重要。
2 大數(shù)據(jù)帶來的風(fēng)險(xiǎn)和挑戰(zhàn)
2.1 大數(shù)據(jù)的存儲(chǔ)方式給數(shù)據(jù)安全帶來新的風(fēng)險(xiǎn)
目前,大數(shù)據(jù)大多采用云存儲(chǔ),云存儲(chǔ)的優(yōu)點(diǎn)主要體現(xiàn)在三方面:容量大、成本低、可擴(kuò)展。云存儲(chǔ)在為我們帶來方便的同時(shí),也帶來了安全隱患。
(1)可靠性問題。2011年亞馬遜的云數(shù)據(jù)中心出現(xiàn)了服務(wù)器大面積宕機(jī)事件,2010年微軟在美國西部幾周時(shí)間內(nèi)出現(xiàn)至少三次托管服務(wù)中斷事件,因此用戶能否訪問到自己的云存儲(chǔ)數(shù)據(jù)直接取決于服務(wù)商的可靠度。
(2)數(shù)據(jù)安全問題。存儲(chǔ)在云端的數(shù)據(jù)也會(huì)由于服務(wù)商的失職而被泄露、更改甚至消失。2011年,Google郵箱發(fā)生的用戶數(shù)據(jù)泄漏事件,其規(guī)模之大,直接讓15萬Gmail用戶的所有郵件和聊天記錄被刪除,以及部分用戶的賬戶被重置。2012年盛大云在無錫的數(shù)據(jù)中心因?yàn)橐慌_(tái)物理服務(wù)器磁盤發(fā)生損壞,導(dǎo)致用戶數(shù)據(jù)的丟失。
(3)數(shù)據(jù)權(quán)屬問題。存儲(chǔ)在云端的數(shù)據(jù)很有可能在互聯(lián)網(wǎng)上的任何數(shù)據(jù)中心,極有可能被未經(jīng)授權(quán)的第三方訪問。2016年,國內(nèi)最大的實(shí)時(shí)公交軟件“酷米客”的大量后臺(tái)數(shù)據(jù)被竊取泄露,而數(shù)據(jù)竊取者是它的同行業(yè)競爭對手“車來了”。此次泄漏事件導(dǎo)致“酷米客”的間接損失將近20億,其中包括大量的核心商業(yè)數(shù)據(jù)。因此,數(shù)據(jù)量的增長、變化和速度提升等都需要新的方法來預(yù)防和管理。
2.2 大數(shù)據(jù)的分析對計(jì)算機(jī)的結(jié)構(gòu)提出了挑戰(zhàn)
大數(shù)據(jù)時(shí)代,除了要處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)也增長迅速,這些呈指數(shù)增長的新型數(shù)據(jù)沖擊了傳統(tǒng)的數(shù)據(jù)分析技術(shù)。
(1)數(shù)據(jù)存儲(chǔ)模式的轉(zhuǎn)變帶來的流動(dòng)性威脅。傳統(tǒng)的數(shù)據(jù)都是靜態(tài)的,都是經(jīng)過分析提取然后存到數(shù)據(jù)庫里,需要時(shí)再被調(diào)出來研究使用;而大數(shù)據(jù)是隨時(shí)隨地會(huì)動(dòng)態(tài)產(chǎn)生的,必須邊掃描邊分析[2] ,這種動(dòng)態(tài)的流動(dòng)性威脅對計(jì)算機(jī)的結(jié)構(gòu)提出了新需求。
(2)大數(shù)據(jù)的快速有效處理提出了新挑戰(zhàn)。大數(shù)據(jù)時(shí)代,各種應(yīng)用場景的數(shù)據(jù)分析不再局限于離線環(huán)境,對在線分析的需求也越來越高,傳統(tǒng)數(shù)據(jù)庫的存儲(chǔ)能力無法滿足呈指數(shù)增長的數(shù)據(jù)量,數(shù)據(jù)類型的多樣化使得傳統(tǒng)數(shù)據(jù)庫的處理壓力成倍增長,這就需要更新更快的大數(shù)據(jù)分析框架來提升數(shù)據(jù)的處理能力。Spark Streaming [3] 和Storm [4] 是目前有代表性的在線大數(shù)據(jù)分析框架。Spark Streaming是一個(gè)準(zhǔn)實(shí)時(shí)的流處理框架,處理響應(yīng)時(shí)間一般以分鐘為單位,也就是說處理實(shí)時(shí)數(shù)據(jù)的延遲時(shí)間是秒級(jí)別的;Storm處理數(shù)據(jù)的方式是以條為單位,一條一條處理的,Storm是一個(gè)實(shí)時(shí)流處理框架,處理響應(yīng)是毫秒級(jí)的。由于二者的處理速度和響應(yīng)速度都很快,因而對集群資源配置的要求都比較高。
(3)數(shù)據(jù)呈現(xiàn)方式的可視化需求。信息化時(shí)代,用戶很少關(guān)心自己的數(shù)據(jù)是如何被分析處理的,只希望能隨時(shí)隨地、直觀方便地看到處理結(jié)果,而大數(shù)據(jù)時(shí)代的數(shù)據(jù)處理也會(huì)是海量的,高清的圖表圖像能直觀清晰的展示有效信息,這種新的可視化需求對計(jì)算機(jī)的結(jié)構(gòu)提出了挑戰(zhàn)。
2.3 大數(shù)據(jù)為高級(jí)持續(xù)威脅(APT)提供了新平臺(tái)
APT(Advanced Persistent Threat)的主要特征:隱蔽能力強(qiáng)、潛伏期長、攻擊路徑和渠道不確定、威脅性大。APT攻擊一直是網(wǎng)絡(luò)攻擊的主要手段,也是大數(shù)據(jù)時(shí)代需要解決的最復(fù)雜的信息安全問題之一。反過來,大數(shù)據(jù)分析技術(shù)又為對抗APT攻擊提供了新的解決手段。為了對抗APT攻擊,必須以大數(shù)據(jù)的處理技術(shù)為基礎(chǔ),研發(fā)對抗APT攻擊的檢測手段和防御產(chǎn)品,提升安全審計(jì)方案的安全性能,比如實(shí)時(shí)監(jiān)測能力和事后監(jiān)測能力的提升,溯源并定位APT攻擊過程等。
2.4 大數(shù)據(jù)技術(shù)的過快發(fā)展帶來新的安全問題
大數(shù)據(jù)本身存在著一定的安全漏洞,黑客技術(shù)也在不斷的進(jìn)步,這就導(dǎo)致了大數(shù)據(jù)的安全問題日益顯著。2017年5月發(fā)生了全球性勒索病毒事件,該病毒對計(jì)算機(jī)內(nèi)部的程序和文檔等資源實(shí)施高強(qiáng)度的加密鎖定,讓用戶無法訪問自己的文檔,并以此為要挾向用戶索取以比特幣支付的贖金,短短5天時(shí)間,全球約304.1萬個(gè)IP地址遭受攻擊,其中我國境內(nèi)的IP地址數(shù)量約有9.4萬個(gè)。
3 大數(shù)據(jù)背景下的安全策略研究
3.1 數(shù)據(jù)備份技術(shù)和數(shù)據(jù)恢復(fù)技術(shù)
針對大數(shù)據(jù)的特點(diǎn),采用多級(jí)別的數(shù)據(jù)備份方案能有效防范數(shù)據(jù)的丟失。例如騰訊云存儲(chǔ)團(tuán)隊(duì)提出了多級(jí)別的“容災(zāi)”解決方案,其中磁盤級(jí)別、服務(wù)器級(jí)別、集群級(jí)別這三類容災(zāi)方案能夠在數(shù)據(jù)中心的事故發(fā)生之前避免問題,而機(jī)房級(jí)別容災(zāi)和跨地域容災(zāi),則保證了事故發(fā)生后的問題解決。
但是,數(shù)據(jù)的多重備份又會(huì)帶來存儲(chǔ)成本的增加,因此各大企業(yè)和組織都使用了重復(fù)數(shù)據(jù)刪除技術(shù)和自動(dòng)精簡配置技術(shù)來降低成本。重復(fù)數(shù)據(jù)刪除的核心思想是通過塊級(jí)的比對,將重復(fù)的數(shù)據(jù)塊刪掉,只留下單一實(shí)例,從而有效釋放冗余的存儲(chǔ)空間,從客觀上增加了存儲(chǔ)容量,降低了存儲(chǔ)成本。
目前企業(yè)存儲(chǔ)主要面臨幾個(gè)問題:第一,如何削減開支以應(yīng)對不斷增加的數(shù)據(jù)存儲(chǔ)成本;第二,數(shù)據(jù)存儲(chǔ)容量的爆炸性增長,且增長速度難以預(yù)估;第三,如何進(jìn)行有效的數(shù)據(jù)管理以面對日益復(fù)雜的網(wǎng)絡(luò)環(huán)境。針對這些問題,目前業(yè)界有幾個(gè)不同的發(fā)展方向:一是通過分散化的存儲(chǔ)方式提升數(shù)據(jù)的安全存儲(chǔ)等級(jí);二是建立安全集中式管理平臺(tái)保證大數(shù)據(jù)的安全有效管理,比如Hortonworks推出的開源項(xiàng)目Apache Ranger[5] 在解決授權(quán)和審計(jì)等問題的同時(shí),還能非常全面地為用戶提供Hadoop生態(tài)圈的集中安全策略管理。這樣,各種不同的個(gè)人用戶和組對文件以及相關(guān)數(shù)據(jù)等都可以得到有差異的訪問策略,同時(shí)負(fù)責(zé)運(yùn)行和維護(hù)的管理人員還能審計(jì)對數(shù)據(jù)源的訪問。
3.2 差分隱私技術(shù)
差分隱私 [6] 技術(shù)是目前大數(shù)據(jù)安全研究的一項(xiàng)重要技術(shù),其原理是使用隱私算法對用戶數(shù)據(jù)進(jìn)行干擾,使之無法回溯到個(gè)人,通過對數(shù)據(jù)進(jìn)行批量分析而得出一定規(guī)模的趨勢規(guī)律,既保護(hù)了用戶的隱私,還能提取到一些通用信息以便機(jī)器學(xué)習(xí)。因此,合理的差分隱私算法可以保證攻擊者獲取幾乎無用的個(gè)人信息,而算法關(guān)鍵是隱私參數(shù)ε,該參數(shù)直接決定了差分隱私的效率,進(jìn)一步保證了數(shù)據(jù)安全。目前,蘋果和谷歌分別在iOS和Chrome中使用了差分隱私技術(shù),差分隱私算法也已經(jīng)在隱私保護(hù)分析產(chǎn)品中實(shí)現(xiàn),但是谷歌和蘋果都沒有公布在他們各自的差分隱私保證中所用到的ε值。因此,合理設(shè)計(jì)ε值是大數(shù)據(jù)安全研究中的重要方向。
3.3 建立安全的大數(shù)據(jù)應(yīng)用體系
任何一個(gè)安全可靠的大數(shù)據(jù)系統(tǒng),不僅要保證數(shù)據(jù)流的源頭是安全可靠的,更要保證數(shù)據(jù)分析過程乃至最后有價(jià)值的輸出都是安全可信的,因此需要規(guī)范化的管理運(yùn)行機(jī)制,同時(shí),根據(jù)現(xiàn)有Hadoop和大數(shù)據(jù)生態(tài)圈的各自需求,挑選合適的組件并進(jìn)行有效的整合,從而構(gòu)建一個(gè)功能強(qiáng)大的系統(tǒng)平臺(tái),足夠支撐多種查詢,提供多種分析功能。在此系統(tǒng)中,既要選擇合理的數(shù)據(jù)存儲(chǔ)方案,也要分析和權(quán)衡線上線下數(shù)據(jù)分離的有效處理方法。因此,一個(gè)安全的大數(shù)據(jù)應(yīng)用體系,需要在數(shù)據(jù)訪問、存儲(chǔ)、傳輸、銷毀等各環(huán)節(jié)進(jìn)行安全控制 [7] 。例如在數(shù)據(jù)訪問控制方面,明確制定訪問權(quán)限,包括對數(shù)據(jù)使用者的認(rèn)證控制、授權(quán)控制等,同時(shí)對使用日志進(jìn)行審計(jì)。在存儲(chǔ)數(shù)據(jù)時(shí),通過加密的數(shù)據(jù)流,在上傳和下載中都能得到有效的保護(hù);通過分離密鑰和加密數(shù)據(jù),把數(shù)據(jù)使用和數(shù)據(jù)保管進(jìn)行有效分離。對支持?jǐn)?shù)據(jù)傳輸?shù)幕A(chǔ)設(shè)施,既要進(jìn)行嚴(yán)格的物理和環(huán)境安全控制,同時(shí)配備強(qiáng)有力安全漏洞檢測服務(wù),確保軟硬件基礎(chǔ)設(shè)施的安全穩(wěn)定。
大數(shù)據(jù)系統(tǒng)框架的合理設(shè)計(jì)不僅不會(huì)帶來大的安全隱患,還會(huì)給企業(yè)和組織帶來更大的利潤和前景。通過精細(xì)完整的設(shè)計(jì),修改并完善傳統(tǒng)的系統(tǒng)安全解決方案,運(yùn)用于新的大數(shù)據(jù)系統(tǒng)集。一個(gè)完整的企業(yè)級(jí)安全框架應(yīng)該包含的五個(gè)組成部分。
3.4 構(gòu)建安全的大數(shù)據(jù)信息體系
當(dāng)今的網(wǎng)絡(luò)安全形勢變幻莫測,網(wǎng)絡(luò)攻擊是主要手段。如果不了解整個(gè)網(wǎng)絡(luò)的安全形勢和國內(nèi)外安保情況,相關(guān)職能部門和責(zé)任組織就會(huì)對正在發(fā)生的網(wǎng)絡(luò)攻擊事件毫無察覺,因此構(gòu)建安全的大數(shù)據(jù)信息體系是解決網(wǎng)絡(luò)安全的基礎(chǔ)條件,這就要求相關(guān)責(zé)任組織既要建立安全無死角的內(nèi)部網(wǎng)絡(luò)系統(tǒng),更要收集安全有效的全球數(shù)據(jù)。
(1)構(gòu)建安全可靠的內(nèi)部網(wǎng)絡(luò)系統(tǒng)。任何一個(gè)網(wǎng)絡(luò)被控制,都是先攻擊內(nèi)網(wǎng)的一個(gè)終端或者服務(wù)器,再由內(nèi)網(wǎng)的終端或服務(wù)器作為源頭發(fā)起新的攻擊。因此,使用全面的網(wǎng)絡(luò)收集技術(shù)并構(gòu)建安全的大數(shù)據(jù)內(nèi)網(wǎng)系統(tǒng),讓所有數(shù)據(jù)都處于監(jiān)視之下,無處遁形。全面收集從終端或服務(wù)器到其他網(wǎng)絡(luò)的所有數(shù)據(jù),才能形成安全的大數(shù)據(jù)系統(tǒng)。
(2)充分利用全球情報(bào)進(jìn)行更安全更及時(shí)的數(shù)據(jù)保護(hù)。發(fā)生在一個(gè)企業(yè)的網(wǎng)絡(luò)攻擊事件,絕不是全世界的唯一,很可能在另外一個(gè)地方已經(jīng)使用過同樣的網(wǎng)絡(luò)攻擊樣本或者方法,如果通過網(wǎng)絡(luò)安全公司和全球情報(bào)網(wǎng)絡(luò)及時(shí)獲取了相關(guān)警報(bào),就能及時(shí)有效地防范相同的網(wǎng)絡(luò)攻擊出現(xiàn)在自己的網(wǎng)絡(luò)里。
3.5 開發(fā)大數(shù)據(jù)的實(shí)時(shí)分析引擎,建立APT攻擊的防范規(guī)范
通過對云計(jì)算、人工智能、統(tǒng)計(jì)學(xué)等多領(lǐng)域的融合,在第一時(shí)間挖掘出APT攻擊、非法操作、潛在威脅等事件并及時(shí)做出響應(yīng)。APT攻擊防范策略包括防范社會(huì)工程、通過全面采集行為記錄避免內(nèi)部監(jiān)控盲點(diǎn)、IT系統(tǒng)異常行為檢測等。例如2015華為公司推出了APT大數(shù)據(jù)安全解決方案,其核心要點(diǎn)是保護(hù)企業(yè)的核心信息資產(chǎn)。通過使用FireHunter[8] 系列安全沙箱、CIS網(wǎng)絡(luò)安全智能系統(tǒng)、USG6000V系列軟件防火墻等產(chǎn)品,覆蓋了“端、管、云”全聯(lián)接的網(wǎng)絡(luò)防護(hù),有效防范APT攻擊帶來的威脅。
4 結(jié)束語
數(shù)據(jù)開放與共享涉及到很多問題,比如數(shù)據(jù)跨境流動(dòng)和數(shù)據(jù)主權(quán)、數(shù)據(jù)開放中的隱私保護(hù)、數(shù)據(jù)安全保障及其政策、框架、體系等,本文主要從大數(shù)據(jù)帶來的新風(fēng)險(xiǎn)和挑戰(zhàn)為出發(fā)點(diǎn),分析了傳統(tǒng)數(shù)據(jù)安全和大數(shù)據(jù)安全研究的聯(lián)系與區(qū)別,著重研究了大數(shù)據(jù)背景下的安全策略問題。這些問題的有效處理和把握將會(huì)推動(dòng)數(shù)據(jù)開放和共享的進(jìn)一步有效實(shí)施。
