今年10月,睿帆科技在“安博會”上對外發(fā)布了其大數(shù)據(jù)科學(xué)平臺Europa。日前,小編針對大家所關(guān)心的Europa設(shè)計、研發(fā)和架構(gòu),以及大數(shù)據(jù)技術(shù)演進(jìn)及應(yīng)用實踐的問題,采訪了我司相關(guān)人員。
睿帆科技眼中的大數(shù)據(jù)
在整個信息化的方向上,有三大趨勢:云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)。在這些趨勢中,大數(shù)據(jù)處于大腦的地位,主要負(fù)責(zé)把數(shù)據(jù)進(jìn)行收集加工轉(zhuǎn)化成信息,甚至轉(zhuǎn)化成知識,最后再通過物聯(lián)網(wǎng)的技術(shù)反饋到現(xiàn)實世界中,不斷地產(chǎn)生更多的價值。
大數(shù)據(jù)最核心的技術(shù)跟人工智能緊密相關(guān),包括知識表達(dá)、自然語言理解、機器學(xué)習(xí),還有相關(guān)的圖象語音識別、機器人等,都屬于這個范圍,但是為了實現(xiàn)人工智能,特別是機器學(xué)習(xí),要處理相當(dāng)多的數(shù)據(jù)需要有一些足夠堅實的底層架構(gòu)來支持。像Hadoop技術(shù)的誕生,原因就是在搜索相關(guān)的智能應(yīng)用里,原有的技術(shù)不能支撐了,所以說,大數(shù)據(jù)的發(fā)展一定是跟著業(yè)務(wù)或者跟著智能化的技術(shù)發(fā)展的。
整個大數(shù)據(jù)的產(chǎn)業(yè)主要分成三個方面,第一是底層的基礎(chǔ)技術(shù)和基礎(chǔ)架構(gòu)。第二是在基礎(chǔ)架構(gòu)上構(gòu)建各種分析的算法及模型等。第三層是在分析之上更多結(jié)合到行業(yè)和業(yè)務(wù)的應(yīng)用。Europa主要偏向于基礎(chǔ)軟件的層次,但是包含了很多分析應(yīng)用方面的工具及一些算法模型。
如今企業(yè)對于數(shù)據(jù)的需求已經(jīng)不單單需要一個大數(shù)據(jù)底層和大數(shù)據(jù)存儲的方案,而是想要從數(shù)據(jù)獲取到大數(shù)據(jù)全鏈條端到端整體的解決方案。
因此,大數(shù)據(jù)將一定變的更加實用。具體體現(xiàn)在四個方面:第一,是描述,比如在做一些基礎(chǔ)的監(jiān)控等方面。第二個方面是診斷,發(fā)現(xiàn)里面的一些問題,把這些問題找出來。第三是做一些預(yù)測,預(yù)測未來整個的趨勢,是向好還是向壞,如果向壞的話可能問題發(fā)生在什么地方。最高級是建議性的分析,不止是發(fā)現(xiàn)問題、發(fā)現(xiàn)趨勢,還要告訴企業(yè)和用戶應(yīng)該怎么適應(yīng)這種變化。
低成本化一直是大數(shù)據(jù)的一個方向。
一個企業(yè)或者一個組織如果想真的應(yīng)用大數(shù)據(jù),必須具備如下條件:
時代:相關(guān)的時代必須要到來,即不僅有信息化系統(tǒng)的基礎(chǔ)、有很多客戶,還要進(jìn)入到互聯(lián)網(wǎng)的時代,有較高數(shù)據(jù)化的程度。如今雖然已經(jīng)步入互聯(lián)網(wǎng)時代很長時間,但仍有許多企業(yè)未重視數(shù)據(jù)的建設(shè)和作用。
理論:從實際業(yè)務(wù)到建模,中間有非常大的鴻溝,這個鴻溝包括數(shù)據(jù)如何采集、如何建模以及如何把業(yè)務(wù)問題轉(zhuǎn)化成真正的數(shù)據(jù)問題,這需要具備一定的經(jīng)驗和相關(guān)的人來完成這件事。只有業(yè)務(wù)變換成了數(shù)學(xué)問題,底層的技術(shù)才能實現(xiàn)。比如地震預(yù)測,數(shù)據(jù)界并沒有把它完全用理論解釋清楚,顯然沒有任何技術(shù)手段可以實現(xiàn)這件事。
技術(shù):理論問題解決完以后,要通過一些基礎(chǔ)的技術(shù)手段來落地。比如說有一些基礎(chǔ)架構(gòu),或者軟件包的形式來實現(xiàn)。
Europa就是解決理論及技術(shù)這兩方面問題的產(chǎn)品,其把用戶數(shù)據(jù)化并驅(qū)動企業(yè)數(shù)據(jù)化的經(jīng)營。Europa是處于底層技術(shù)層,主要解決數(shù)據(jù)的采集獲取、數(shù)據(jù)如何分析建模以及數(shù)據(jù)如何運用到具體的業(yè)務(wù)上,并為此提供基本的接口。
為什么需要大數(shù)據(jù)科學(xué)平臺
睿帆科技的大數(shù)據(jù)理想是希望未來每一個普通人都具備使用和操作大數(shù)據(jù)的能力,能夠隨時利用大數(shù)據(jù)的能力解決自己的問題。大數(shù)據(jù)科學(xué)平臺Europa是睿帆科技經(jīng)驗精華的集成品。用戶只要按照這些經(jīng)驗做數(shù)據(jù)采集、分析和數(shù)據(jù)接口,就能夠直接把應(yīng)用跟技術(shù)對接起來。
人類對數(shù)據(jù)的管理挖掘和需求越來越旺盛,在解決問題的時候,牽扯到的數(shù)據(jù)量和維度也是不斷爆炸、不斷增長的,如何更好、更輕松地挖掘和管理數(shù)據(jù)是如今面臨的最大問題。研發(fā)大數(shù)據(jù)科學(xué)平臺Europa想要解決的,一是數(shù)據(jù)從容量上橫向擴(kuò)展的問題,二是在面臨不同的數(shù)據(jù)問題時需要使用不同數(shù)據(jù)技術(shù)的問題,包括使用底層的Hadoop、Spark等分布式技術(shù)。如今看來Europa已經(jīng)很好的解決了這些問題,并做到即插即用地管理各種各樣的計算框架。
Europa把大數(shù)據(jù)底層技術(shù)標(biāo)準(zhǔn)化,并基于標(biāo)準(zhǔn)化提取出了一系列解決方案和接口,同時基于解決方案和接口建立起了一個完整的、可持續(xù)的中間交互層,這個中間交互層的具體落地,使得企業(yè)在使用平臺時不用關(guān)心底下具體的某種技術(shù)和某種問題。
在大數(shù)據(jù)科學(xué)平臺上通過結(jié)構(gòu)化語言、可拖拽圖形交互界面,用戶可以自主實現(xiàn)定制基于數(shù)據(jù)生命周期管理的模板。整個大數(shù)據(jù)生命周期分為四個階段,從輸入接入整合到加工,最后到消費。用戶不用關(guān)心數(shù)據(jù)如何接入進(jìn)來,如何擺放如何整合,如何挖掘加工,他只需要設(shè)計好數(shù)據(jù)邏輯從消費端拿到他想要的結(jié)果即可。
之前很多大數(shù)據(jù)平臺主要以技術(shù)包裝的形態(tài)體現(xiàn),大多數(shù)集中在存儲管理、人機交互和數(shù)據(jù)生命周期管理層面上。睿帆科技自主研發(fā)的大數(shù)據(jù)科學(xué)平臺Europa明確了大數(shù)據(jù)科學(xué)平臺的概念和定義,解決了大數(shù)據(jù)的技術(shù)問題,把各種各樣的開源技術(shù)打包,并在此基礎(chǔ)上注重企業(yè)在大數(shù)據(jù)方面的數(shù)據(jù)業(yè)務(wù)管理、整個企業(yè)內(nèi)部全方位資源的管理以及企業(yè)組織架構(gòu)的管理。
通過這樣的特點,Europa真正成為了一個企業(yè)級的大數(shù)據(jù)科學(xué)平臺,而不是簡簡單單的數(shù)據(jù)開發(fā)工具。企業(yè)用戶使用Europa不僅僅可以解決技術(shù)問題,同時還可以幫助企業(yè)級用戶提高管理質(zhì)量及管理效率。
大數(shù)據(jù)科學(xué)平臺Europa是怎么做的
大數(shù)據(jù)科學(xué)平臺Europa按照可視化、智能化、系統(tǒng)化、協(xié)同化的理念設(shè)計,包括計算框架、資源管理、數(shù)據(jù)管理三個層面。
Europa內(nèi)精挑細(xì)選了一組開源組件并將它們有機整合在一起,使得Europa可以同時支持高速流式處理和海量數(shù)據(jù)批量處理,真正做到PB級數(shù)據(jù)的實時分析挖掘和實時應(yīng)用。同時,Europa 支持40多種數(shù)據(jù)源的接口,保證企業(yè)業(yè)務(wù)系統(tǒng)能極其簡單地與Europa集成。
大數(shù)據(jù)科學(xué)平臺邏輯架構(gòu)
Europa底層集成了Storm、Spark和Hadoop等計算框架,以及HDFS、Hbase、 MySQL和MongoDB等多種數(shù)據(jù)存儲命令,Europa支持將這些組件整合起來,形成特有的處理流程。
Europa的流程和模型設(shè)計能夠充分發(fā)揮這些開源組件的優(yōu)點,讓數(shù)據(jù)處理真正加速再加速,在實際應(yīng)用中,不同的場景盡管支持不同的上層應(yīng)用,但使用Europa即可輕松完成。
Europa 的數(shù)據(jù)處理框架
在資源管理層,Europa則通過統(tǒng)一的資源管理機制,為企業(yè)提供了大數(shù)據(jù)的存儲和計算資源。
Europa涵蓋了采集、清洗、整合、分析挖掘和應(yīng)用五個方面,支持標(biāo)準(zhǔn)的數(shù)據(jù)倉庫建模流程,以及多種機器學(xué)習(xí)算法和商業(yè)模型。
Europa支持的商業(yè)模型
據(jù)介紹,Europa可以實現(xiàn)任意一種異構(gòu)系統(tǒng)的協(xié)同工作。例如某個業(yè)務(wù),需要用幾百個Oracle、MySQL及七八個Hadoop、Spark集群,共同協(xié)作按照一定的規(guī)則才能完成一件事兒。
對于以上場景來說,想要達(dá)成業(yè)務(wù)必須要貫穿不同的Oracle集群、Spark集群或者Hadoop集群。在這些集群上寫一些邏輯相對簡單,但要真正地把它們串起來,協(xié)調(diào)一致地運作解決問題的時候,如果沒有Europa,就需要花很大的精力寫很多程序,而Europa只需要很輕松的畫張流程圖即可。
睿帆科技認(rèn)為,對于數(shù)據(jù)建模、數(shù)據(jù)分析人員來說,他們需要利用一些數(shù)據(jù)分析的工具,但是他們沒有心思或者時間去搭載多元異構(gòu)數(shù)據(jù)操作的一些組件,而Europa的這個特點,可以完美解決這個問題。
Europa未來展望
睿帆科技希望未來通過Europa這種標(biāo)準(zhǔn)化的產(chǎn)品,能夠更好地讓有價值的數(shù)據(jù)輸出它的價值。例如,企業(yè)用戶常用的20到30個大數(shù)據(jù)技術(shù),可以通過Europa管理和配置,使得大數(shù)據(jù)應(yīng)用輕松落地。