隨著近年來(lái)企業(yè)信息化建設(shè)的不斷深化、社會(huì)化網(wǎng)絡(luò)的興起,以及移動(dòng)互聯(lián)網(wǎng)等新一代信息技術(shù)的廣泛應(yīng)用,全球數(shù)據(jù)規(guī)模及其存儲(chǔ)容量正在迅速增長(zhǎng),數(shù)據(jù)的類型也變得復(fù)雜多樣。海量多樣化的數(shù)據(jù)對(duì)信息的有效存儲(chǔ)、快速讀取、檢索提出了挑戰(zhàn);且其中所蘊(yùn)藏的巨大商業(yè)價(jià)值也引發(fā)了對(duì)數(shù)據(jù)處理、分析的巨大需求。當(dāng)前,大數(shù)據(jù)已逐漸滲透到各個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,數(shù)據(jù)成為企業(yè)戰(zhàn)略資產(chǎn),企業(yè)戰(zhàn)略逐漸從"業(yè)務(wù)驅(qū)動(dòng)"轉(zhuǎn)向"數(shù)據(jù)驅(qū)動(dòng)"。如何通過收集和分析大量?jī)?nèi)部和外部的數(shù)據(jù),獲取有價(jià)值的信息將成為指導(dǎo)企業(yè)經(jīng)營(yíng)決策、業(yè)務(wù)運(yùn)作中的核心環(huán)節(jié)。
什么是大數(shù)據(jù)(Big Data)
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)也吸引了越來(lái)越多的關(guān)注。大數(shù)據(jù)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
數(shù)據(jù)采集:實(shí)現(xiàn)將異構(gòu)數(shù)據(jù)從系統(tǒng)外部采集并傳輸?shù)酱髷?shù)據(jù)平臺(tái)的過程,包括數(shù)據(jù)爬取、提取、清洗、轉(zhuǎn)換和裝載等,保證數(shù)據(jù)獲取和驗(yàn)證數(shù)據(jù)的有效性。
數(shù)據(jù)存儲(chǔ)與分析:負(fù)責(zé)海量多態(tài)數(shù)據(jù)的存儲(chǔ)及處理,以混搭架構(gòu)模式實(shí)現(xiàn)多種數(shù)據(jù)存儲(chǔ)策略;對(duì)經(jīng)過存儲(chǔ)和處理后的數(shù)據(jù)進(jìn)行分析,主要包括自然語(yǔ)言處理、數(shù)據(jù)統(tǒng)計(jì)分析以及數(shù)據(jù)挖掘。
數(shù)據(jù)服務(wù):將屏蔽底層針對(duì)各類數(shù)據(jù)服務(wù)需求的數(shù)據(jù)處理過程,將加工后的數(shù)據(jù)、應(yīng)用等通過集中的數(shù)據(jù)服務(wù)提供功能,為外部合作伙伴提供數(shù)據(jù)服務(wù)能力,簡(jiǎn)化數(shù)據(jù)共享邏輯,集約化數(shù)據(jù)分析能力。
數(shù)據(jù)應(yīng)用:通過固定報(bào)表、多維分析等方式展現(xiàn)數(shù)據(jù),對(duì)內(nèi)支撐企業(yè)管理分析、經(jīng)營(yíng)分析、服務(wù)分析、銷售分析及產(chǎn)品開發(fā);對(duì)外支撐產(chǎn)品化的數(shù)據(jù)服務(wù)以及數(shù)據(jù)提供。
數(shù)據(jù)管控:實(shí)現(xiàn)數(shù)據(jù)全生命周期管理,提升企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、元數(shù)據(jù)管理等基礎(chǔ)數(shù)據(jù)管控能力。
大數(shù)據(jù)的價(jià)值體現(xiàn)
(1)對(duì)大量消費(fèi)者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷;
(2)做小而美模式的中小微企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型;
(3)面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時(shí)俱進(jìn)充分利用大數(shù)據(jù)的價(jià)值。
不過,“大數(shù)據(jù)”在經(jīng)濟(jì)發(fā)展中的巨大意義并不代表其能取代一切對(duì)于社會(huì)問題的理性思考,科學(xué)發(fā)展的邏輯不能被湮沒在海量數(shù)據(jù)中。著名經(jīng)濟(jì)學(xué)家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無(wú)益累積,以致對(duì)問題之說明與解決,喪失了其對(duì)特殊的經(jīng)濟(jì)意義的了解。”這確實(shí)是需要警惕的。
在這個(gè)快速發(fā)展的智能硬件時(shí)代,困擾應(yīng)用開發(fā)者的一個(gè)重要問題就是如何在功率、覆蓋范圍、傳輸速率和成本之間找到那個(gè)微妙的平衡點(diǎn)。企業(yè)組織利用相關(guān)數(shù)據(jù)和分析可以幫助它們降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策等等。例如,通過結(jié)合大數(shù)據(jù)和高性能的分析,下面這些對(duì)企業(yè)有益的情況都可能會(huì)發(fā)生:
(1)及時(shí)解析故障、問題和缺陷的根源,每年可能為企業(yè)節(jié)省數(shù)十億元。
(2)為成千上萬(wàn)的快遞車輛規(guī)劃實(shí)時(shí)交通路線,躲避擁堵。
(3)分析所有SKU,以利潤(rùn)最大化為目標(biāo)來(lái)定價(jià)和清理庫(kù)存。
(4)根據(jù)客戶的購(gòu)買習(xí)慣,為其推送他可能感興趣的優(yōu)惠信息。
(5)從大量客戶中快速識(shí)別出金牌客戶。
(6)使用點(diǎn)擊流分析和數(shù)據(jù)挖掘來(lái)規(guī)避欺詐行為。