近年來,隨著公安大情報(bào)體系的建設(shè),以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,一個(gè)以信息爆炸為特征的大數(shù)據(jù)時(shí)代正在到來。各種數(shù)據(jù)處理的技術(shù)層出不窮,這為"數(shù)字警務(wù)"、"智慧警務(wù)"帶來了新的手段。對(duì)此,公安部門必須以創(chuàng)新的理念和思維,把深入實(shí)施科技強(qiáng)警戰(zhàn)略,大力推進(jìn)科技創(chuàng)新擺上更加重要的位置,努力提升公安工作的信息化、科學(xué)化和現(xiàn)代化水平。全警采集,內(nèi)外聯(lián)動(dòng),高度共享,綜合應(yīng)用。
隨著大數(shù)據(jù)技術(shù)的普及和應(yīng)用,"大情報(bào)體系"建設(shè)需要對(duì)數(shù)據(jù)的大開發(fā),通過使用挖掘算法對(duì)海量數(shù)據(jù)進(jìn)行分析和建模,挖掘出各類數(shù)據(jù)背后所蘊(yùn)含的內(nèi)在的、必然的因果關(guān)系,進(jìn)而判斷出某一事件發(fā)生的概率、科學(xué)預(yù)測(cè)其發(fā)展趨勢(shì),以此來服務(wù)打防管控等警務(wù)工作。
一、需求分析
當(dāng)前公安的業(yè)務(wù)系統(tǒng)多樣,但大多業(yè)務(wù)系統(tǒng)與實(shí)際的業(yè)務(wù)結(jié)合不夠緊密,產(chǎn)生了技術(shù)與業(yè)務(wù)"兩張皮"的現(xiàn)象,進(jìn)而信息化難以有效支撐業(yè)務(wù)的進(jìn)展,而業(yè)務(wù)的演變難以對(duì)業(yè)務(wù)系統(tǒng)的進(jìn)化形成促進(jìn),造成信息化與業(yè)務(wù)脫節(jié)。
公安大情報(bào)體系建設(shè)需要大數(shù)據(jù)存儲(chǔ)技術(shù)、管理技術(shù)、挖掘技術(shù)為契機(jī),能夠建立海量的公安數(shù)據(jù)資源庫,不斷挖掘公安情報(bào),實(shí)現(xiàn)信息化隨著業(yè)務(wù)的發(fā)展而快速變化,真正實(shí)現(xiàn)業(yè)務(wù)與信息化的融合,形成業(yè)務(wù)與信息化互相促進(jìn)的格局。
(一) 建立大數(shù)據(jù)采集平臺(tái)
大數(shù)據(jù)采集平臺(tái)大小取決于所獲取的數(shù)據(jù)的廣度與深度,所以我們要采集現(xiàn)有的各種數(shù)據(jù),公安數(shù)據(jù)具體可以分為以下幾類:一是公安基礎(chǔ)工作數(shù)據(jù)信息。主要包括:人員信息、案件信息、物品信息、線索信息、場(chǎng)所信息等。二是公安內(nèi)網(wǎng)共享的數(shù)據(jù)信息。主要包括公安部及各省市公安內(nèi)網(wǎng)中的在逃人員信息、盜搶汽車信息、違法犯罪人員信息、法輪功信息、通緝令、預(yù)警信息、研判指令等。三是外部社會(huì)信息。主要包括互聯(lián)網(wǎng)刊載的違法犯罪信息、商業(yè)網(wǎng)站的一些異常信息、保險(xiǎn)理賠信息、個(gè)人資信信息、中介機(jī)構(gòu)信息、檢察機(jī)關(guān)案件信息、審判機(jī)關(guān)案件信息、信用卡組織信息、公證機(jī)構(gòu)信息等。
(二) 建立大數(shù)據(jù)組織平臺(tái)
大數(shù)據(jù)采集平臺(tái)的構(gòu)建,解決了海量數(shù)據(jù)的統(tǒng)一存放問題,但是這些來自不同來源的公安數(shù)據(jù)仍然是散亂的、不規(guī)則的原始數(shù)據(jù)。對(duì)原始數(shù)據(jù)進(jìn)行清洗、整合,建立規(guī)范、統(tǒng)一、完整的基礎(chǔ)數(shù)據(jù)視圖。然后在此基礎(chǔ)上,針對(duì)業(yè)務(wù)部門提出的具體業(yè)務(wù)需求,進(jìn)一步的進(jìn)行數(shù)據(jù)的加工和處理,形成面向主題的數(shù)據(jù)集市,供業(yè)務(wù)部門使用。
(三) 建立大數(shù)據(jù)分析平臺(tái)
大數(shù)據(jù)分析是公安信息化應(yīng)用的重要環(huán)節(jié),也是情報(bào)信息再利用的基礎(chǔ)。公安機(jī)關(guān)對(duì)大數(shù)據(jù)的分析解讀是一個(gè)去偽存真、去粗取精的過程。分析解讀的方法和內(nèi)容主要是:一是對(duì)大數(shù)據(jù)信息真實(shí)性分析。違法犯罪活動(dòng)大多處于隱蔽狀態(tài),所反映信息往往缺乏明朗性,有的甚至具有偽裝性,對(duì)初期收集到的信息必須甄別其真?zhèn)危?strong>二是對(duì)大數(shù)據(jù)信息的比對(duì)查詢分析。這是公安工作特別是偵查工作中運(yùn)用較為廣泛的分析解讀手段,通過同類信息比對(duì)查詢,擴(kuò)展信息量,串并同類信息;三是量化比較分析。對(duì)某個(gè)區(qū)域、時(shí)段、案件、涉案人員、財(cái)物、場(chǎng)所以及線索等的數(shù)量與前期、上年同期、周邊同期進(jìn)行比較分析等等,例如包括信息查詢、人員甄別、串并、碰撞比對(duì),重大案件特點(diǎn)分析預(yù)警,各類數(shù)據(jù)的統(tǒng)計(jì)分析、規(guī)律提煉及情報(bào)收集,可疑人員身份鎖定及人員控制,生物信息檔案管理和證件鑒別研究等功能。
二、解決方案
睿帆科技基于對(duì)公安系統(tǒng)需求的深刻理,以大數(shù)據(jù)科學(xué)平臺(tái)Baymax為數(shù)據(jù)采集處理管理的基礎(chǔ),以NLP中文智慧文本平臺(tái)為紙質(zhì)檔案結(jié)構(gòu)化的處理引擎,以分布式分析型數(shù)據(jù)庫雪球DB為交互式查詢的核心,構(gòu)建了一整套圍繞警務(wù)易搜、自助比對(duì)、綜合查詢、信息布控、專題研判、預(yù)警分析等多種業(yè)務(wù)場(chǎng)景的刑偵大數(shù)據(jù)解決方案。
(一) 大數(shù)據(jù)科學(xué)平臺(tái)Baymax,為警務(wù)人員提供高性能一體化大數(shù)據(jù)存儲(chǔ)分析平臺(tái)
大數(shù)據(jù)科學(xué)平臺(tái)Baymax是一款圍繞多源異構(gòu)的海量數(shù)據(jù)入、存、管、出四個(gè)核心場(chǎng)景,集數(shù)據(jù)集成、數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)監(jiān)控及系統(tǒng)配置等功能為一體的大數(shù)據(jù)平臺(tái),能有效支撐刑偵過程中各個(gè)環(huán)節(jié)的數(shù)據(jù)需求,幫助警務(wù)人員對(duì)海量數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、治理、分析和挖掘,發(fā)現(xiàn)案件中的關(guān)鍵信息。
其支持1000個(gè)節(jié)點(diǎn)以上的分布式處理,數(shù)據(jù)處理規(guī)模可達(dá)PB級(jí)別以上,記錄文檔數(shù)據(jù)可支持萬億規(guī)模以上,支持對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一的存儲(chǔ)管理及一體化查詢,幫助警務(wù)人員快速從身份證、交易日志、卡口視頻、案件照片錄音等多種數(shù)據(jù)類型中,快速發(fā)現(xiàn)有效信息。
(二)NLP中文智慧文本平臺(tái),歷史案卷信息讀取的小幫手
NLP中文智慧文本平臺(tái)是一款圍繞中文文本的模型自動(dòng)識(shí)別、文本結(jié)構(gòu)化、文本數(shù)據(jù)應(yīng)用、關(guān)鍵信息提取四個(gè)核心場(chǎng)景,集自動(dòng)標(biāo)注、人工標(biāo)注、模型訓(xùn)練以及API部署等功能為一體的NLP平臺(tái),能快速準(zhǔn)確處理大量復(fù)雜文本,滿足不同場(chǎng)景下的文本處理需求,幫助警務(wù)人員對(duì)大量歷史文本案卷進(jìn)行預(yù)處理、存儲(chǔ)、識(shí)別、提取關(guān)鍵信息和挖掘,發(fā)現(xiàn)其中包含的價(jià)值。
(三)分布式分析型數(shù)據(jù)庫雪球DB,高效信息交互的核心
分布式分析型數(shù)據(jù)庫雪球DB是一款用于聯(lián)機(jī)分析處理(OLAP)的MPP列式數(shù)據(jù)庫管理系統(tǒng)(DBMS)。提供PB級(jí)別大數(shù)據(jù)集的在線多維查詢和分布式存儲(chǔ),特別適用于海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、高并發(fā)點(diǎn)查詢、高吞吐即席查詢(Ad-hoc)、多維分析和實(shí)時(shí)查詢場(chǎng)景。
在刑偵大數(shù)據(jù)場(chǎng)景中,由于數(shù)據(jù)量大、查詢?nèi)藛T多,所以對(duì)于數(shù)據(jù)庫性能的要求極為苛刻。分布式分析型數(shù)據(jù)庫雪球DB在萬億規(guī)模數(shù)據(jù),進(jìn)行高并發(fā)即席查詢可實(shí)現(xiàn)秒級(jí)響應(yīng),這極大的提升了刑偵破案的效率,降低了破案周期。
公安大數(shù)據(jù)平臺(tái)的建設(shè),實(shí)現(xiàn)了公安局對(duì)各類內(nèi)部及外部數(shù)據(jù)資源的系統(tǒng)整合、資源共享、互聯(lián)互通。通過統(tǒng)一資源服務(wù)總線的建立,使大數(shù)據(jù)平臺(tái)能夠?qū)ν馓峁┙y(tǒng)一化、標(biāo)準(zhǔn)化、規(guī)范化的信息資源服務(wù),業(yè)務(wù)系統(tǒng)效率獲得極大的提升;基于平臺(tái)建立多種業(yè)務(wù)分析應(yīng)用,對(duì)多類資源進(jìn)行關(guān)聯(lián)分析、深度挖掘,建立多種專題研判、預(yù)測(cè)分析,為公安提供可靠的、全面的實(shí)戰(zhàn)支撐,為案件偵辦、反恐維穩(wěn)提供有效的數(shù)據(jù)保障,助力實(shí)現(xiàn)“智慧公安”。