大數(shù)據(jù)掃盲

2022-9-16    seo達(dá)人




一、什么是大數(shù)據(jù)?

大數(shù)據(jù)就是任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。–JohnRauser。

大數(shù)據(jù)代表了更多的信息,更多理解信息的角度。

大數(shù)據(jù),又稱巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無(wú)法通過(guò)人腦甚至主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。

 

二、大數(shù)據(jù)的分類(lèi)

  • 結(jié)構(gòu)化數(shù)據(jù),簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù)。也稱作行數(shù)據(jù),是由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過(guò)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。結(jié)構(gòu)化數(shù)據(jù)標(biāo)記,是一種能讓網(wǎng)站以更好的姿態(tài)展示在搜索結(jié)果當(dāng)中的方式,搜索引擎都支持標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)標(biāo)記。(員工的姓名,年齡等)
  • 非結(jié)構(gòu)話數(shù)據(jù),是與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的,不適于由數(shù)據(jù)庫(kù)二維表來(lái)表現(xiàn),包括所有格式的辦公文檔、XML、HTML、各類(lèi)報(bào)表、圖片和咅頻、視頻信息等。支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)采用多值字段、了字段和變長(zhǎng)字段機(jī)制進(jìn)行數(shù)據(jù)項(xiàng)的創(chuàng)建和管理,廣泛應(yīng)用于全文檢索和各種多媒體信息處理領(lǐng)域。(員工的聲音,頭像等)
  • 半結(jié)構(gòu)化數(shù)據(jù)是一種適于數(shù)據(jù)庫(kù)集成的數(shù)據(jù)模型,也就是說(shuō),適于描述包含在兩個(gè)或多個(gè)數(shù)據(jù)庫(kù)(這些數(shù)據(jù)庫(kù)含有不同模式的相似數(shù)據(jù))中的數(shù)據(jù)。(員工的簡(jiǎn)歷等)

 

三、大數(shù)據(jù)的特點(diǎn)

1、規(guī)模性(Volume)大數(shù)據(jù)的數(shù)據(jù)量是驚人的,隨著技術(shù)的發(fā)展,數(shù)據(jù)量開(kāi)始爆發(fā)性增長(zhǎng),達(dá)到TB甚至PB級(jí)別。例如,淘寶網(wǎng)平常每天的商品交易數(shù)據(jù)約20TB(1TB=1024GB),全球最大設(shè)計(jì)平臺(tái)Facebook的用戶,每天產(chǎn)生的日志數(shù)據(jù)超過(guò)了300TB(日志數(shù)據(jù)是記錄用戶操作記錄的,并非發(fā)帖內(nèi)容)。大數(shù)據(jù)如此龐大的數(shù)據(jù)量,是無(wú)法通過(guò)人工處理的。需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺(tái)和新的數(shù)據(jù)處理技術(shù)來(lái)處理這些大數(shù)據(jù)。

2、多樣性(Varity) 大數(shù)據(jù)廣泛的數(shù)據(jù)來(lái)源,決定了大數(shù)據(jù)形式的多樣性。大數(shù)據(jù)大體上可以分為三類(lèi),分別是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)的特點(diǎn)是數(shù)據(jù)間因果關(guān)系強(qiáng),比如息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等;非結(jié)構(gòu)化的數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)間沒(méi)有因果關(guān)系,比如音頻、圖片、視頻等;半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)間的因果關(guān)系弱。比如網(wǎng)頁(yè)數(shù)據(jù)、郵件記錄等。

3、高速性(Velocity) 大數(shù)據(jù)的交換和傳播是通過(guò)互聯(lián)網(wǎng)、云計(jì)算等方式實(shí)現(xiàn)的,遠(yuǎn)比傳統(tǒng)媒介的信息交換和傳播速度快捷。大數(shù)據(jù)與海量數(shù)據(jù)的重要區(qū)別,除了大數(shù)據(jù)的數(shù)據(jù)規(guī)模更大以外,大數(shù)據(jù)對(duì)處理數(shù)據(jù)的響應(yīng)速度有更嚴(yán)格的要求。實(shí)時(shí)分析而非批量分析,數(shù)據(jù)輸入、處理與丟棄立刻見(jiàn)效,幾乎無(wú)延遲。數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。

4、價(jià)值性(Value) 價(jià)值性是大數(shù)據(jù)的核心特點(diǎn)?,F(xiàn)實(shí)中大量的數(shù)據(jù)是無(wú)效或者低價(jià)值的,大數(shù)據(jù)最大的價(jià)值在于通過(guò)從大量不相關(guān)的各種類(lèi)型的數(shù)據(jù)中,挖掘出對(duì)未來(lái)趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù)。比如,某寶電商平臺(tái)每天產(chǎn)生的大量交易數(shù)據(jù)(大數(shù)據(jù)),通過(guò)一些算法可以分析出具有某些特征的人喜歡什么類(lèi)型的商品,然后根據(jù)客戶的特征,給其推薦TA喜歡的商品。

圖片

軟件

1.Docker Compose是一個(gè)用來(lái)幫助定義和分享多容器應(yīng)用的工具。有了Compose,就能創(chuàng)建一個(gè)YAML文件來(lái)定義服務(wù),只需要一個(gè)命令,就能夠啟動(dòng)所有東西,也能夠把所有東西銷(xiāo)毀掉。

2.Zeppelin是一個(gè)基于Web的notebook,提供交互數(shù)據(jù)分析和可視化。后臺(tái)支持接入多種數(shù)據(jù)處理引擎,如Spark,Hive等。支持多種語(yǔ)言:Scala(Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

圖片

3.Hadoop是由java語(yǔ)言編寫(xiě)的,在分布式服務(wù)器集群上存儲(chǔ)海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開(kāi)源框架,其核心部件是HDFS與MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。

4.Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。

5.Hbase其實(shí)是Hadoop database的簡(jiǎn)稱,是一種NoSQL數(shù)據(jù)庫(kù),主要適用于海量明細(xì)數(shù)據(jù)(十億、百億)的隨機(jī)實(shí)時(shí)查詢,如日志明細(xì)、交易清單、軌跡行為等。

tips: Hive適合用來(lái)對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行分析查詢。適合用來(lái)進(jìn)行大數(shù)據(jù)的實(shí)時(shí)查詢。

6.Spark是一種基于內(nèi)存的快速、通用、可擴(kuò)展的大數(shù)據(jù)計(jì)算引擎。它集批處理、實(shí)時(shí)流處理、交互式查詢、圖計(jì)算與機(jī)器學(xué)習(xí)于一體。

tips: Spark是那么一個(gè)專門(mén)用來(lái)對(duì)那些分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理的工具,它要借助Hadoop HDFS的數(shù)據(jù)存儲(chǔ)。Hadoop的MapReduce是分步對(duì)數(shù)據(jù)進(jìn)行處理的,存取磁盤(pán)的過(guò)程會(huì)影響處理速度。Spark從磁盤(pán)中讀取數(shù)據(jù),把中間數(shù)據(jù)放到內(nèi)存中,完成所有必須的分析處理,將結(jié)果寫(xiě)回集群,所以Spark更快。所以Hadoop + Spack結(jié)合起來(lái)用更好。

7.JupyterLab是一個(gè)集 Jupyter Notebook、文本編輯器、終端以及各種個(gè)性化組件(有VScode內(nèi)味了)于一體的全能IDE。

8.prestoDB是一種開(kāi)源的分布式 SQL 查詢引擎,從頭開(kāi)始設(shè)計(jì)用于針對(duì)任何規(guī)模的數(shù)據(jù)進(jìn)行快速分析查詢。它既可支持非關(guān)系數(shù)據(jù)源,例如 Hadoop 分布式文件系統(tǒng) (HDFS)、Amazon S3、Cassandra、MongoDB 和 HBase,又可支持關(guān)系數(shù)據(jù)源,例如 MySQL、PostgreSQL、Amazon Redshift、Microsoft SQL Server 和 Teradata。

9.TensorFlow是一個(gè)端到端開(kāi)源機(jī)器學(xué)習(xí)平臺(tái)。它擁有一個(gè)全面而靈活的生態(tài)系統(tǒng),其中包含各種工具、庫(kù)和社區(qū)資源,可助力研究人員推動(dòng)先進(jìn)機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,并使開(kāi)發(fā)者能夠輕松地構(gòu)建和部署由機(jī)器學(xué)習(xí)提供支持的應(yīng)用。

 

四、主流的大數(shù)據(jù)架構(gòu)Lambda

Lambda架構(gòu)是其根據(jù)多年進(jìn)行分布式大數(shù)據(jù)系統(tǒng)的經(jīng)驗(yàn)總結(jié)提煉而成,目標(biāo)是設(shè)計(jì)出一個(gè)能滿足實(shí)時(shí)大數(shù)據(jù)系統(tǒng)關(guān)鍵特性的架構(gòu),包括有:高容錯(cuò)、低延時(shí)和可擴(kuò)展等。Lambda架構(gòu)整合離線計(jì)算和實(shí)時(shí)計(jì)算,融合不可變性(Immunability),讀寫(xiě)分離和復(fù)雜性隔離等一系列架構(gòu)原則,可集成Hadoop,Kafka,Storm,Spark,Hbase等各類(lèi)大數(shù)據(jù)組件。

圖片

1、Batch View預(yù)運(yùn)算查詢函數(shù),預(yù)先建立索引,支持隨機(jī)讀取,能很好的解決特別大級(jí)別的數(shù)據(jù)且還需要支持實(shí)時(shí)查詢,要消耗非常龐大的資源的問(wèn)題。

2、Batch Layer執(zhí)行的是批量處理,例如Hadoop或者Spark支持的Map-Reduce方式。利用Batch Layer進(jìn)行預(yù)運(yùn)算的作用實(shí)際上就是將大數(shù)據(jù)變小,從而有效地利用資源,改善實(shí)時(shí)查詢的性能。

圖片

3、Serving Layer是一個(gè)專用的分布式數(shù)據(jù)庫(kù)。Batch Layer通過(guò)對(duì)master dataset執(zhí)行查詢獲得了batch view,而Serving Layer就要負(fù)責(zé)對(duì)batch view進(jìn)行操作,從而為最終的實(shí)時(shí)查詢提供支撐。

4、Speed Layer對(duì)更新到Serving layer帶來(lái)的高延遲的一種補(bǔ)充,它是一種增量的計(jì)算,而非重新運(yùn)算。Speed layer與Batch layer非常相似,它們之間最大的區(qū)別是前者只處理最近的數(shù)據(jù),后者則要處理所有的數(shù)據(jù)。

圖片

 


作者:李丹

轉(zhuǎn)載請(qǐng)注明:學(xué)UI網(wǎng)》大數(shù)據(jù)掃盲

藍(lán)藍(lán)設(shè)計(jì)建立了UI設(shè)計(jì)分享群,每天會(huì)分享國(guó)內(nèi)外的一些優(yōu)秀設(shè)計(jì),如果有興趣的話,可以進(jìn)入一起成長(zhǎng)學(xué)習(xí),請(qǐng)加藍(lán)小助,微信號(hào):ben_lanlan,報(bào)下信息,藍(lán)小助會(huì)請(qǐng)您入群。歡迎您加入噢~~希望得到建議咨詢、商務(wù)合作,也請(qǐng)與我們聯(lián)系01063334945。


分享此文一切功德,皆悉回向給文章原作者及眾讀者.
免責(zé)聲明:藍(lán)藍(lán)設(shè)計(jì)尊重原作者,文章的版權(quán)歸原作者。如涉及版權(quán)問(wèn)題,請(qǐng)及時(shí)與我們?nèi)〉寐?lián)系,我們立即更正或刪除。


藍(lán)藍(lán)設(shè)計(jì)www.bouu.cn )是一家專注而深入的界面設(shè)計(jì)公司,為期望卓越的國(guó)內(nèi)外企業(yè)提供卓越的UI界面設(shè)計(jì)、BS界面設(shè)計(jì) 、 cs界面設(shè)計(jì) 、 ipad界面設(shè)計(jì) 、 包裝設(shè)計(jì) 、 圖標(biāo)定制 、 用戶體驗(yàn) 、交互設(shè)計(jì)、 網(wǎng)站建設(shè) 、平面設(shè)計(jì)服務(wù)、UI設(shè)計(jì)公司、界面設(shè)計(jì)公司、UI設(shè)計(jì)服務(wù)公司、數(shù)據(jù)可視化設(shè)計(jì)公司、UI交互設(shè)計(jì)公司、高端網(wǎng)站設(shè)計(jì)公司、UI咨詢、用戶體驗(yàn)公司、軟件界面設(shè)計(jì)公司


分享本文至:

日歷

鏈接

個(gè)人資料

存檔