邁向第四次工業革命-進入大數據時代,不只是AI人工智慧

邁向第四次工業革命-進入大數據時代,不只是AI人工智慧

相關文章:想做AI機器學習,不可不知的大數據分散式平台Hadoop

人類經歷了三次工業革命,大約分別是1760-1840年的80年、19世紀末到20世紀初的100年、20世紀60年代,第一次讓人類進入了機械生產時代,里程碑包含鐵路建設以及蒸汽機,第二次隨著電力以及生產線,進入規模化生產時代,第三次則出現了半導體技術,後續的大型電腦、個人電腦及網路依序而生。

人工智慧之前必經的工業革命

依照前三次的定義和學術觀點,可以認為我們在處在第四次工業革命開端,又或者是第三次工業革命直接接續了第四次,特別的是這樣是在數位基礎上發展的,因此相比於過去覆蓋面、移動性、影響層次上都變得更為龐大且深入。

而我們邁向第的第四次工業革命中所需要知道的事,每一次工業革命都是建立在前面一次工業革命的基礎上,而這次工業革命更是如此,隨著硬體技術及軟體技術,彼此互相促進融合帶來的化學變化。這份變化將在速度、範疇、系統性都與以往有著更大的變化,而其中占比非常重要的一塊就是數據,特別是大數據。


相關文章:第四次工業革命能夠帶給整個地球及社會什麼樣的變化


行為資料

先談談大數據是什麼,為什麼未來的工業革命又跟資料有關?

過去的資料大部分是透過人用手寫紀錄下來的資料,其中又以交易紀錄Transactions為一大部分,到了現在則越來越多是透過純硬體設備或者可以稱作機器,替我們記錄下來的各種資料。像是過去到肯德基都是透過人點餐,服務員透過POS基進行操作,影印出單子並貼給後面的同事,同時卡在架子上進行優先順序排列,完成餐點後交到我們的手上。而現在可以透過機器點選後,就自動列印出單子,基本上可以不需要服務員透過POS基進行操作,而其實後面的行為也可以透過機器人或是輸送帶進行餐點的移動及給予。

除了transaction以外,另一大部分則是互動資料Interactions,也就是人類個體的數位足跡,不管是網站點擊、網站搜尋、彼此的連結及移動。

相關文章:大數據的領航者-過去的Google如今的Alphabet

最後一部分則是單純透過機器,去自動生成而後紀錄所累積下來的各種觀察資料observations,在過去大多也都是透過人工去紀錄,像是當兵時大家都知道會有人去看溫度計並負責記錄溫度下來,而現在可以透過IOT裝置,甚至是一個智慧型手環,就完成每日紀錄,甚至是每分鐘的變化,又或者像是台灣很喜歡討論的PM2.5,在過去的時代,個人要去進行紀錄及搜集難度是非常高而且不便的,在如今的時代門檻則變得非常低。

個人蠻喜歡 Shaun Connolly的定義,大數據是由交易、互動、觀察資料所組成的資料型態。

Big Data = Transactions + Interactions + Observations


大數據潮流下,行為資料如何帶給全球巨大改變


要了解改變就必須先對於資料有進一步的了解,資料可以從不同的維度去討論。而在大數據時代下或有些人會稱為巨量資料,則是建立在軟硬體的進化,其中硬體像是儲存設備成本下降,軟硬體則能夠帶來資料量急速成長,甚至是雲端環境成熟等種種客觀條件就位。

相關文章:軟硬體融合進化伴生的企業-dropbox

大數據資料可以簡單從三點去分析,分別是容量Volume、速度Velocity、多樣性Variety。這也是為何上面會提到儲存設備成本下降,因為唯有如此才能負荷大容量的資料,甚至是巨大容量的資料,像是從過去的TeraBytes到PetaBytes。Velocity則又可以分為多個面向,像是儲存的速度,顯示的速度以及分析的速度,而彼此又可以互相結合,像是即時串流以及分析,而這一部分就仰賴軟體的處理引擎技術能夠做到大數據的處理。

相關文章:不用在為即時資料處理擔心- Apache Hadoop生態系中的數據流好手Flink


不管是所謂的人工智慧或是大數據

行為資料都需要進行轉換


很多人心裡可能會疑惑假設資料都有了,那又來帶來什麼樣的變化,以及有了這些資料就可以直接進行運用嗎?

因此對於資料就必須加上兩個很重要的指標,分別是真實性Veracity及價值Value。Veracity的判別是非常重要的,就像人工進行紀錄或有可能發生錯誤,機器也有可能出錯,不管這個出錯是一開始機器設定,或是機器突然出現當等等,而這部分如果搜集到的資料與真實世界不相符,那麼就不可能得出正確的結論,如果剛好一樣,那麼也真的只是剛好而已。Dat Veracity的重要程度可以說是最為重要的一環,不管是之後進行人工智慧AI或者是機器學習,其實很大一部分的時間都是需要花在這塊區域。


這也是許多人為何喜歡講 Garbage in garbage  out


雖然有些人會把大數據定義在100TB以上,但其實如果用這個標準全世界大數據的公司大概不超過100家,當然這前提是數據需要符合真實性,不然的話就只是無意義的資訊罷了。

而如果能夠對於這些行為具有敏銳度的話,就能夠打造在未來世代持續保持競爭力的企業,大數據能夠帶給企業三種不同的可能性,分別是

1.從既有的數據進行資料變現(有別於以往的流量變現)。最直接的方法像是擁有過往的transaction數據,直接販售給想要成立量化基金的公司

2.以數據提升企業競爭力。像是透過機器學習跑關聯,做出更進一步客製化的推薦,達到轉單率及回客率的提升像是eBay。

相關文章:機器學習 非監督式學習的最強武器-關聯

3.則是以數據做為服務的核心價值,顛覆傳統產業甚至是做到從前做不到,或是非常難以在成本預算內做到的事情,最著名的像是劍橋分析,Aleksandr Kogan建置了thisisyourdigitallife來搜集個人用戶資料,以此左右選舉。


資料的時代正拉開序幕


90 percent of the data in the world today has been created in the last two years alone, creating 2.5 quintillion bytes of data every day — and with new devices, sensors and technologies emerging, the data growth rate will likely accelerate even more

很多人可能都會很好奇,為什麼過去很難做到事情,到了如今大數據或是人工智慧就可能做到了?

照理說目前的人類科技還沒辦法讓那麼多的企業打造出那麼多台可以同時負荷Huge Volume、Fast Velocity、a lot of variety。確實是如此,因此過去是硬體推升了軟體發展,而最近十年人類則透過軟體去彌補了硬體的不足。



Apache Hadoop 分散式系統

時代潮流下的產物-水平擴展

Hadoop 介紹

Apache Hadoop是一款支援資料密集型分佈式應用程式並以Apache 2.0許可協定發布的開源軟體框架。

簡單來說,Hadoop可以先大概分為三個部分:HDFS 負責分散式儲存,通常是把一份資料儲存3份、Yarn負責資源和任務管理、Map-Reduce負責分散式計算。

The project includes these modules:

  • Hadoop Common: The common utilities that support the other Hadoop modules.
  • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
  • Hadoop YARN: A framework for job scheduling and cluster resource management.
  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
  • Hadoop Ozone: An object store for Hadoop.

相關文章:想做AI機器學習,別跟我說不知道大數據分散式平台Hadoop



發表迴響