更新時(shí)間:2024-03-17 17:14:50作者:佚名
1.大數(shù)據(jù)概念
大數(shù)據(jù)技術(shù)是指從各類(lèi)海量數(shù)據(jù)中快速獲取有價(jià)值信息的技術(shù)。 解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)。 大數(shù)據(jù),即海量數(shù)據(jù),是指所涉及的數(shù)據(jù)量如此之大,以至于無(wú)法通過(guò)當(dāng)前主流軟件工具在合理的時(shí)間內(nèi)捕獲、管理、處理和組織以幫助業(yè)務(wù)決策。 具有更積極目的的信息。 與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用相比,大數(shù)據(jù)分析具有數(shù)據(jù)量大、查詢分析復(fù)雜的特點(diǎn)。
2.數(shù)據(jù)構(gòu)成
大數(shù)據(jù)包括包括交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,如圖:
(1) 海量交易數(shù)據(jù):
企業(yè)內(nèi)部的業(yè)務(wù)交易信息主要包括在線交易數(shù)據(jù)和在線分析數(shù)據(jù),它們是通過(guò)關(guān)系數(shù)據(jù)庫(kù)管理和訪問(wèn)的結(jié)構(gòu)化、靜態(tài)和歷史數(shù)據(jù)。 通過(guò)這些數(shù)據(jù),我們可以了解過(guò)去發(fā)生的事情。
(2)海量交互數(shù)據(jù):
由源自、 、 和其他來(lái)源的社交媒體數(shù)據(jù)組成。 它包括通話詳細(xì)記錄 CDR、設(shè)備和傳感器信息、GPS 和地理位置映射數(shù)據(jù)、通過(guò)托管文件傳輸文件協(xié)議傳輸?shù)拇罅繄D像文件、Web 文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等。 可以告訴我們未來(lái)會(huì)發(fā)生什么。
三、大數(shù)據(jù)特點(diǎn)
首先要從“大”開(kāi)始。 “大”是指數(shù)據(jù)的規(guī)模。 大數(shù)據(jù)一般是指10TB(1TB=)以上的數(shù)據(jù)量。 大數(shù)據(jù)不同于過(guò)去的海量數(shù)據(jù)。 其基本特征可以用四個(gè)V(Vol-ume、Value、)來(lái)概括大數(shù)據(jù)的特征不包括,即體量大、多樣性、價(jià)值密度低、速度快。
第一個(gè)V是海量數(shù)據(jù)有不同的格式。 第一個(gè)是結(jié)構(gòu)化數(shù)據(jù),也就是我們常見(jiàn)的數(shù)據(jù),還有半結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)和非結(jié)構(gòu)化的視頻音頻數(shù)據(jù)。 而且他們處理這些數(shù)字化的方式是比較大的。 數(shù)據(jù)的類(lèi)型有很多,比如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。
第二個(gè)V是體積比較大。 我們的一些定制每秒需要大量數(shù)據(jù)。 很多客戶內(nèi)部都有好幾批數(shù)據(jù),而淘寶有好幾個(gè)PB的數(shù)據(jù),所以PB會(huì)是一個(gè)比較正常的情況。 。
非結(jié)構(gòu)化數(shù)據(jù)超大規(guī)模且增長(zhǎng)占總數(shù)據(jù)量的80~90%,比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10~50倍,比傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)快10~50倍。
第三個(gè)V是因?yàn)閿?shù)據(jù)化會(huì)具有時(shí)間敏感性,因此需要快速處理并獲得結(jié)果。 1秒規(guī)則。 最后一點(diǎn)也與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著根本的不同。 物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng),手機(jī)、平板電腦、PC、遍布地球各個(gè)角落的各種傳感器,都是數(shù)據(jù)源或者承載方式。
第四個(gè)V是Value:大量不相關(guān)的信息未經(jīng)處理價(jià)值較低大數(shù)據(jù)的特征不包括,是價(jià)值密度最低的數(shù)據(jù)。 以視頻為例,在連續(xù)不間斷的監(jiān)控過(guò)程中,潛在有用的數(shù)據(jù)只有一兩秒。 海量數(shù)據(jù)的分析非常復(fù)雜,使得過(guò)去單純依靠數(shù)據(jù)庫(kù)BI已經(jīng)不再適合。
總的來(lái)說(shuō),“海量()、多樣化()、快速()、低價(jià)值密度(Value)”是“大數(shù)據(jù)”的顯著特征,如圖所示。 具有這些特征的數(shù)據(jù)就是大數(shù)據(jù)。
4.大數(shù)據(jù)技術(shù)
大數(shù)據(jù)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和數(shù)據(jù)分析挖掘技術(shù):
(1)數(shù)據(jù)采集:ETL工具負(fù)責(zé)從分布式異構(gòu)數(shù)據(jù)源(如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等)中提取數(shù)據(jù)到臨時(shí)中間層進(jìn)行清洗、轉(zhuǎn)換、整合,最后加載成數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市。 ,成為在線分析處理和數(shù)據(jù)挖掘的基礎(chǔ)。
(2)數(shù)據(jù)訪問(wèn):關(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等。
(3)數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)。
(4)統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)和殘差分析等。
(5)數(shù)據(jù)挖掘:分類(lèi)()、估計(jì)()、預(yù)測(cè)()、相關(guān)性分組或關(guān)聯(lián)規(guī)則(或規(guī)則)、聚類(lèi)()、描述和可視化、Deion和)、復(fù)雜數(shù)據(jù)類(lèi)型挖掘(文本、Web、圖形)圖像、視頻、音頻等)。
(7)模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模與仿真。
(8)結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。
5.大數(shù)據(jù)處理
(一) 收藏
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)從客戶端(以Web、App或傳感器等形式)接收數(shù)據(jù),用戶可以通過(guò)這些數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單的查詢和處理。 例如,電子商務(wù)會(huì)使用MySQL等傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)每筆交易數(shù)據(jù)。 在收集大數(shù)據(jù)的過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是高并發(fā)訪問(wèn)量,因?yàn)榭赡苡袛?shù)千個(gè)用戶同時(shí)訪問(wèn)和操作,例如火車(chē)票銷(xiāo)售網(wǎng)站和淘寶網(wǎng),他們的并發(fā)訪問(wèn)量是峰值達(dá)到百萬(wàn)級(jí),因此需要在采集端部署大量數(shù)據(jù)庫(kù)來(lái)支撐。 而如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片,確實(shí)需要深入的思考和設(shè)計(jì)。
(2)導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果想要有效分析這些海量數(shù)據(jù),就應(yīng)該將前端的數(shù)據(jù)導(dǎo)入到集中式大型分布式數(shù)據(jù)庫(kù)或者分布式存儲(chǔ)集群中,并且可以基于Do導(dǎo)入一些簡(jiǎn)單的清潔和預(yù)處理工作。 導(dǎo)入和預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入數(shù)據(jù)量大,每秒導(dǎo)入的數(shù)據(jù)量往往達(dá)到數(shù)百兆甚至千兆字節(jié)。
(3) 統(tǒng)計(jì)/分析
統(tǒng)計(jì)分析主要利用分布式數(shù)據(jù)庫(kù)或分布式計(jì)算集群對(duì)其中存儲(chǔ)的海量數(shù)據(jù)進(jìn)行普通的分析、分類(lèi)和匯總,以滿足最常見(jiàn)的分析需求。 統(tǒng)計(jì)分析部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及大量數(shù)據(jù),消耗大量系統(tǒng)資源,尤其是I/O。
(4) 挖掘
與以往的統(tǒng)計(jì)和分析過(guò)程不同,數(shù)據(jù)挖掘一般沒(méi)有任何預(yù)設(shè)的主題。 主要是對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行基于各種算法的計(jì)算,達(dá)到()的效果,從而達(dá)到一些高層的數(shù)據(jù)分析需求。整個(gè)大數(shù)據(jù)處理的一般流程至少要滿足這四個(gè)步驟才可以算是比較完善的大數(shù)據(jù)處理。
6、大數(shù)據(jù)應(yīng)用及案例分析
大數(shù)據(jù)應(yīng)用的關(guān)鍵也是其必要條件。 通過(guò)用戶行為分析進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)是大數(shù)據(jù)的典型應(yīng)用。 然而,大數(shù)據(jù)在各行各業(yè)尤其是公共服務(wù)領(lǐng)域有著廣闊的應(yīng)用前景。
以下是大數(shù)據(jù)在各行業(yè)和組織中的應(yīng)用示例:
(1) 大數(shù)據(jù)應(yīng)用案例:教育行業(yè)
現(xiàn)在,大數(shù)據(jù)分析已經(jīng)應(yīng)用于各個(gè)行業(yè),特別是在美國(guó)的公共教育領(lǐng)域。 如圖所示,它已成為教學(xué)改革的重要力量。
(2)大數(shù)據(jù)應(yīng)用案例:生活?yuàn)蕵?lè)
新華社新媒體中心在新浪微博上捕獲了45.5萬(wàn)條提及“爸爸去哪兒”的原創(chuàng)微博。 并分析了36.7萬(wàn)名獨(dú)立原創(chuàng)作者用戶(不包括疑似噴子賬戶)和超過(guò)1300萬(wàn)條用戶微博帖子。 以及近億條關(guān)系進(jìn)行數(shù)據(jù)分析。 事實(shí)證明:《爸爸去哪兒》成了名副其實(shí)的“口碑王”
(3)大數(shù)據(jù)應(yīng)用案例:電商行業(yè)
在電商行業(yè),利用大數(shù)據(jù)技術(shù)可以及時(shí)了解有多少新客戶在多少天內(nèi)進(jìn)行了兩次回購(gòu)。 還可以清楚地知道不同類(lèi)別客戶的復(fù)購(gòu)周期是多少天,為企業(yè)實(shí)施精準(zhǔn)營(yíng)銷(xiāo)打下堅(jiān)實(shí)的基礎(chǔ)。 例如,企業(yè)可以利用大數(shù)據(jù)產(chǎn)生的信息,在適當(dāng)?shù)臅r(shí)間針對(duì)不同類(lèi)別的客戶進(jìn)行促銷(xiāo)活動(dòng),為企業(yè)帶來(lái)收入和利潤(rùn)。
大數(shù)據(jù)技術(shù)的應(yīng)用前景非常廣闊。 當(dāng)前,我國(guó)正走在全面建設(shè)小康社會(huì)的征程上。 工業(yè)化、信息化、城鎮(zhèn)化、農(nóng)業(yè)現(xiàn)代化任務(wù)十分繁重。 建設(shè)下一代信息基礎(chǔ)設(shè)施,發(fā)展現(xiàn)代信息技術(shù)產(chǎn)業(yè)體系,完善信息安全體系,推進(jìn)信息網(wǎng)絡(luò)化。 技術(shù)的廣泛應(yīng)用是四個(gè)現(xiàn)代化同步發(fā)展的保證。 大數(shù)據(jù)分析對(duì)于我們深入了解世界國(guó)情、把握規(guī)律、實(shí)現(xiàn)科學(xué)發(fā)展、做出科學(xué)決策具有重要意義。 我們必須重新認(rèn)識(shí)數(shù)據(jù)的重要價(jià)值。
2024-02-12 14:22
2024-02-12 14:16
2024-02-12 14:05
2024-02-12 13:59
2023-12-18 16:05