今年10月,睿帆科技在“安博會(huì)”上對(duì)外發(fā)布了其大數(shù)據(jù)科學(xué)平臺(tái)Europa。日前,小編針對(duì)大家所關(guān)心的Europa設(shè)計(jì)、研發(fā)和架構(gòu),以及大數(shù)據(jù)技術(shù)演進(jìn)及應(yīng)用實(shí)踐的問題,采訪了我司相關(guān)人員。
睿帆科技眼中的大數(shù)據(jù)
在整個(gè)信息化的方向上,有三大趨勢(shì):云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)。在這些趨勢(shì)中,大數(shù)據(jù)處于大腦的地位,主要負(fù)責(zé)把數(shù)據(jù)進(jìn)行收集加工轉(zhuǎn)化成信息,甚至轉(zhuǎn)化成知識(shí),最后再通過物聯(lián)網(wǎng)的技術(shù)反饋到現(xiàn)實(shí)世界中,不斷地產(chǎn)生更多的價(jià)值。
大數(shù)據(jù)最核心的技術(shù)跟人工智能緊密相關(guān),包括知識(shí)表達(dá)、自然語言理解、機(jī)器學(xué)習(xí),還有相關(guān)的圖象語音識(shí)別、機(jī)器人等,都屬于這個(gè)范圍,但是為了實(shí)現(xiàn)人工智能,特別是機(jī)器學(xué)習(xí),要處理相當(dāng)多的數(shù)據(jù)需要有一些足夠堅(jiān)實(shí)的底層架構(gòu)來支持。像Hadoop技術(shù)的誕生,原因就是在搜索相關(guān)的智能應(yīng)用里,原有的技術(shù)不能支撐了,所以說,大數(shù)據(jù)的發(fā)展一定是跟著業(yè)務(wù)或者跟著智能化的技術(shù)發(fā)展的。
整個(gè)大數(shù)據(jù)的產(chǎn)業(yè)主要分成三個(gè)方面,第一是底層的基礎(chǔ)技術(shù)和基礎(chǔ)架構(gòu)。第二是在基礎(chǔ)架構(gòu)上構(gòu)建各種分析的算法及模型等。第三層是在分析之上更多結(jié)合到行業(yè)和業(yè)務(wù)的應(yīng)用。Europa主要偏向于基礎(chǔ)軟件的層次,但是包含了很多分析應(yīng)用方面的工具及一些算法模型。
如今企業(yè)對(duì)于數(shù)據(jù)的需求已經(jīng)不單單需要一個(gè)大數(shù)據(jù)底層和大數(shù)據(jù)存儲(chǔ)的方案,而是想要從數(shù)據(jù)獲取到大數(shù)據(jù)全鏈條端到端整體的解決方案。
因此,大數(shù)據(jù)將一定變的更加實(shí)用。具體體現(xiàn)在四個(gè)方面:第一,是描述,比如在做一些基礎(chǔ)的監(jiān)控等方面。第二個(gè)方面是診斷,發(fā)現(xiàn)里面的一些問題,把這些問題找出來。第三是做一些預(yù)測(cè),預(yù)測(cè)未來整個(gè)的趨勢(shì),是向好還是向壞,如果向壞的話可能問題發(fā)生在什么地方。最高級(jí)是建議性的分析,不止是發(fā)現(xiàn)問題、發(fā)現(xiàn)趨勢(shì),還要告訴企業(yè)和用戶應(yīng)該怎么適應(yīng)這種變化。
低成本化一直是大數(shù)據(jù)的一個(gè)方向。
一個(gè)企業(yè)或者一個(gè)組織如果想真的應(yīng)用大數(shù)據(jù),必須具備如下條件:
時(shí)代:相關(guān)的時(shí)代必須要到來,即不僅有信息化系統(tǒng)的基礎(chǔ)、有很多客戶,還要進(jìn)入到互聯(lián)網(wǎng)的時(shí)代,有較高數(shù)據(jù)化的程度。如今雖然已經(jīng)步入互聯(lián)網(wǎng)時(shí)代很長(zhǎng)時(shí)間,但仍有許多企業(yè)未重視數(shù)據(jù)的建設(shè)和作用。
理論:從實(shí)際業(yè)務(wù)到建模,中間有非常大的鴻溝,這個(gè)鴻溝包括數(shù)據(jù)如何采集、如何建模以及如何把業(yè)務(wù)問題轉(zhuǎn)化成真正的數(shù)據(jù)問題,這需要具備一定的經(jīng)驗(yàn)和相關(guān)的人來完成這件事。只有業(yè)務(wù)變換成了數(shù)學(xué)問題,底層的技術(shù)才能實(shí)現(xiàn)。比如地震預(yù)測(cè),數(shù)據(jù)界并沒有把它完全用理論解釋清楚,顯然沒有任何技術(shù)手段可以實(shí)現(xiàn)這件事。
技術(shù):理論問題解決完以后,要通過一些基礎(chǔ)的技術(shù)手段來落地。比如說有一些基礎(chǔ)架構(gòu),或者軟件包的形式來實(shí)現(xiàn)。
Europa就是解決理論及技術(shù)這兩方面問題的產(chǎn)品,其把用戶數(shù)據(jù)化并驅(qū)動(dòng)企業(yè)數(shù)據(jù)化的經(jīng)營(yíng)。Europa是處于底層技術(shù)層,主要解決數(shù)據(jù)的采集獲取、數(shù)據(jù)如何分析建模以及數(shù)據(jù)如何運(yùn)用到具體的業(yè)務(wù)上,并為此提供基本的接口。
為什么需要大數(shù)據(jù)科學(xué)平臺(tái)
睿帆科技的大數(shù)據(jù)理想是希望未來每一個(gè)普通人都具備使用和操作大數(shù)據(jù)的能力,能夠隨時(shí)利用大數(shù)據(jù)的能力解決自己的問題。大數(shù)據(jù)科學(xué)平臺(tái)Europa是睿帆科技經(jīng)驗(yàn)精華的集成品。用戶只要按照這些經(jīng)驗(yàn)做數(shù)據(jù)采集、分析和數(shù)據(jù)接口,就能夠直接把應(yīng)用跟技術(shù)對(duì)接起來。
人類對(duì)數(shù)據(jù)的管理挖掘和需求越來越旺盛,在解決問題的時(shí)候,牽扯到的數(shù)據(jù)量和維度也是不斷爆炸、不斷增長(zhǎng)的,如何更好、更輕松地挖掘和管理數(shù)據(jù)是如今面臨的最大問題。研發(fā)大數(shù)據(jù)科學(xué)平臺(tái)Europa想要解決的,一是數(shù)據(jù)從容量上橫向擴(kuò)展的問題,二是在面臨不同的數(shù)據(jù)問題時(shí)需要使用不同數(shù)據(jù)技術(shù)的問題,包括使用底層的Hadoop、Spark等分布式技術(shù)。如今看來Europa已經(jīng)很好的解決了這些問題,并做到即插即用地管理各種各樣的計(jì)算框架。
Europa把大數(shù)據(jù)底層技術(shù)標(biāo)準(zhǔn)化,并基于標(biāo)準(zhǔn)化提取出了一系列解決方案和接口,同時(shí)基于解決方案和接口建立起了一個(gè)完整的、可持續(xù)的中間交互層,這個(gè)中間交互層的具體落地,使得企業(yè)在使用平臺(tái)時(shí)不用關(guān)心底下具體的某種技術(shù)和某種問題。
在大數(shù)據(jù)科學(xué)平臺(tái)上通過結(jié)構(gòu)化語言、可拖拽圖形交互界面,用戶可以自主實(shí)現(xiàn)定制基于數(shù)據(jù)生命周期管理的模板。整個(gè)大數(shù)據(jù)生命周期分為四個(gè)階段,從輸入接入整合到加工,最后到消費(fèi)。用戶不用關(guān)心數(shù)據(jù)如何接入進(jìn)來,如何擺放如何整合,如何挖掘加工,他只需要設(shè)計(jì)好數(shù)據(jù)邏輯從消費(fèi)端拿到他想要的結(jié)果即可。
之前很多大數(shù)據(jù)平臺(tái)主要以技術(shù)包裝的形態(tài)體現(xiàn),大多數(shù)集中在存儲(chǔ)管理、人機(jī)交互和數(shù)據(jù)生命周期管理層面上。睿帆科技自主研發(fā)的大數(shù)據(jù)科學(xué)平臺(tái)Europa明確了大數(shù)據(jù)科學(xué)平臺(tái)的概念和定義,解決了大數(shù)據(jù)的技術(shù)問題,把各種各樣的開源技術(shù)打包,并在此基礎(chǔ)上注重企業(yè)在大數(shù)據(jù)方面的數(shù)據(jù)業(yè)務(wù)管理、整個(gè)企業(yè)內(nèi)部全方位資源的管理以及企業(yè)組織架構(gòu)的管理。
通過這樣的特點(diǎn),Europa真正成為了一個(gè)企業(yè)級(jí)的大數(shù)據(jù)科學(xué)平臺(tái),而不是簡(jiǎn)簡(jiǎn)單單的數(shù)據(jù)開發(fā)工具。企業(yè)用戶使用Europa不僅僅可以解決技術(shù)問題,同時(shí)還可以幫助企業(yè)級(jí)用戶提高管理質(zhì)量及管理效率。
大數(shù)據(jù)科學(xué)平臺(tái)Europa是怎么做的
大數(shù)據(jù)科學(xué)平臺(tái)Europa按照可視化、智能化、系統(tǒng)化、協(xié)同化的理念設(shè)計(jì),包括計(jì)算框架、資源管理、數(shù)據(jù)管理三個(gè)層面。
Europa內(nèi)精挑細(xì)選了一組開源組件并將它們有機(jī)整合在一起,使得Europa可以同時(shí)支持高速流式處理和海量數(shù)據(jù)批量處理,真正做到PB級(jí)數(shù)據(jù)的實(shí)時(shí)分析挖掘和實(shí)時(shí)應(yīng)用。同時(shí),Europa 支持40多種數(shù)據(jù)源的接口,保證企業(yè)業(yè)務(wù)系統(tǒng)能極其簡(jiǎn)單地與Europa集成。
大數(shù)據(jù)科學(xué)平臺(tái)邏輯架構(gòu)
Europa底層集成了Storm、Spark和Hadoop等計(jì)算框架,以及HDFS、Hbase、 MySQL和MongoDB等多種數(shù)據(jù)存儲(chǔ)命令,Europa支持將這些組件整合起來,形成特有的處理流程。
Europa的流程和模型設(shè)計(jì)能夠充分發(fā)揮這些開源組件的優(yōu)點(diǎn),讓數(shù)據(jù)處理真正加速再加速,在實(shí)際應(yīng)用中,不同的場(chǎng)景盡管支持不同的上層應(yīng)用,但使用Europa即可輕松完成。
Europa 的數(shù)據(jù)處理框架
在資源管理層,Europa則通過統(tǒng)一的資源管理機(jī)制,為企業(yè)提供了大數(shù)據(jù)的存儲(chǔ)和計(jì)算資源。
Europa涵蓋了采集、清洗、整合、分析挖掘和應(yīng)用五個(gè)方面,支持標(biāo)準(zhǔn)的數(shù)據(jù)倉庫建模流程,以及多種機(jī)器學(xué)習(xí)算法和商業(yè)模型。
Europa支持的商業(yè)模型
據(jù)介紹,Europa可以實(shí)現(xiàn)任意一種異構(gòu)系統(tǒng)的協(xié)同工作。例如某個(gè)業(yè)務(wù),需要用幾百個(gè)Oracle、MySQL及七八個(gè)Hadoop、Spark集群,共同協(xié)作按照一定的規(guī)則才能完成一件事兒。
對(duì)于以上場(chǎng)景來說,想要達(dá)成業(yè)務(wù)必須要貫穿不同的Oracle集群、Spark集群或者Hadoop集群。在這些集群上寫一些邏輯相對(duì)簡(jiǎn)單,但要真正地把它們串起來,協(xié)調(diào)一致地運(yùn)作解決問題的時(shí)候,如果沒有Europa,就需要花很大的精力寫很多程序,而Europa只需要很輕松的畫張流程圖即可。
睿帆科技認(rèn)為,對(duì)于數(shù)據(jù)建模、數(shù)據(jù)分析人員來說,他們需要利用一些數(shù)據(jù)分析的工具,但是他們沒有心思或者時(shí)間去搭載多元異構(gòu)數(shù)據(jù)操作的一些組件,而Europa的這個(gè)特點(diǎn),可以完美解決這個(gè)問題。
Europa未來展望
睿帆科技希望未來通過Europa這種標(biāo)準(zhǔn)化的產(chǎn)品,能夠更好地讓有價(jià)值的數(shù)據(jù)輸出它的價(jià)值。例如,企業(yè)用戶常用的20到30個(gè)大數(shù)據(jù)技術(shù),可以通過Europa管理和配置,使得大數(shù)據(jù)應(yīng)用輕松落地。