黃岡大pos機代理,政府治理大數據的共享

 新聞資訊  |   2023-07-03 12:52  |  投稿人:pos機之家

網(wǎng)上有很多關(guān)于黃岡大pos機代理,政府治理大數據的共享的知識,也有很多人為大家解答關(guān)于黃岡大pos機代理的問(wèn)題,今天pos機之家(www.xjcwpx.cn)為大家整理了關(guān)于這方面的知識,讓我們一起來(lái)看下吧!

本文目錄一覽:

1、黃岡大pos機代理

黃岡大pos機代理

政府治理大數據的共享、集成與融合

金澈清1, 陳晉川2, 劉威3, 張召1

1 華東師范大學(xué)數據科學(xué)與工程學(xué)院

2 中國人民大學(xué)信息學(xué)院

3 中山大學(xué)數據科學(xué)與計算機學(xué)院

摘要:為支持政府治理方法科學(xué)化、過(guò)程智能化、結果精細化,政府治理大數據共享、集成與融合不能局限于提供數據訪(fǎng)問(wèn)接口,而是要從語(yǔ)義層面發(fā)現實(shí)體、找出關(guān)聯(lián)關(guān)系以及演化過(guò)程。然而,政府治理大數據的多源、異構、動(dòng)態(tài)、海量、孤島化特性卻使之面臨嚴峻挑戰。系統性回顧了大規模分布式異構數據共享、集成、融合的基礎理論和方法,并指出了構建面向政府治理大數據的高可信共享、高精準集成、高效率融合技術(shù)的迫切性。

1 引言

政府治理是指政府行政系統與其他相關(guān)主體一道對社會(huì )公共事務(wù)的治理。政府治理是在堅持中國特色社會(huì )主義制度的前提下,破除不適應生產(chǎn)力發(fā)展的制度,釋放生產(chǎn)力和社會(huì )活力。傳統的政府管理模式強調政府基于科層制體系而形成的垂直型結構,政府作為單部門(mén)封閉式行政;而政府治理模式則強調政府與其他主體(包括企事業(yè)單位、行業(yè)協(xié)會(huì )等)之間緊密配合,協(xié)作式行政。參與治理的主體之間保持信息溝通順暢,能真實(shí)、客觀(guān)、全面地描述事態(tài)現狀,預測發(fā)展方向,從而使治理方法科學(xué)化、過(guò)程智能化、結果精細化。

政府治理大數據泛指支持政府治理行為的所有數據,而非單指政務(wù)大數據。政府治理大數據改變人們的思維方式和決策過(guò)程,為政府治理能力和治理體系現代化提供強大驅動(dòng)力。在過(guò)去相當長(cháng)的時(shí)間內,政府部門(mén)在進(jìn)行決策時(shí)能夠采用的數據相對有限,而且準確度較低,因而在決策過(guò)程中會(huì )融入較多主觀(guān)因素,不夠精準。進(jìn)入21世紀以來(lái),數據采集方式更加豐富,采集范圍更加廣闊,經(jīng)由各個(gè)渠道匯集而成的海量行為信息深刻而生動(dòng)地刻畫(huà)了治理對象。例如,城市的手機信令數據能夠反映出城市的整體交通狀況,特別是擁堵路段的位置,交通管理部門(mén)可據此優(yōu)化交通路線(xiàn);再例如,我國不同地區的能源消耗總量以及工業(yè)用電、居民用電的占比能夠反映出該地區的工業(yè)和經(jīng)濟發(fā)展活力,為宏觀(guān)調控提供依據。這些行為數據規模宏大、到達速度快、類(lèi)型多樣,基于這些數據的分析結果有助于決策者從多層面、多角度洞察和理解社會(huì )現象,以進(jìn)行科學(xué)決策。政府治理大數據的出現改變了以往認為人類(lèi)行為難以預測的舊觀(guān)點(diǎn),可以通過(guò)電子蹤跡監測和預測人類(lèi)的行為習慣,使政府能夠提前進(jìn)行科學(xué)決策,并為用戶(hù)提供便利、快捷、無(wú)縫集成的一體化服務(wù)。

有效匯集不同來(lái)源的數據能幫助政府從不同維度審視治理對象。例如,當人們衡量一個(gè)商圈的活力時(shí),需要了解該商圈的人流量(電信信令數據)、消費水平(支付寶、微信支付、銀聯(lián)刷卡數據)、口碑(互聯(lián)網(wǎng)、社交媒體)等,而這些數據由不同機構采集和維護,并不隸屬于單一機構。因此,政府治理過(guò)程是一個(gè)多治理主體共同參與的協(xié)作式治理。盡管眾多企事業(yè)單位已經(jīng)在過(guò)去幾十年的信息化建設中累積了大量數據,但是由于行政管理和信息技術(shù)等方面的障礙,存在嚴重的信息孤島現象,大量數據無(wú)法被共享使用以支持政府治理。2016年5月,李克強總理在全國推進(jìn)簡(jiǎn)政放權放管結合優(yōu)化服務(wù)改革電視電話(huà)會(huì )議上指出:“目前我國信息數據資源80%以上掌握在各級政府部門(mén)手里,‘深藏閨中’是極大浪費?!薄稄V東省“數字政府”建設總體規劃(2018—2020年)》指出:省直單位現有政務(wù)信息系統1 068個(gè),其中省級垂直系統475個(gè),建設20個(gè)以上系統的單位21個(gè),其中存在37個(gè)網(wǎng)絡(luò )孤島、44個(gè)機房孤島和超過(guò)4 000類(lèi)數據孤島。

數據孤島意味著(zhù)數據沒(méi)有被充分共享、難以有效集成、有待深度融合。表1總結了數據孤島現象帶來(lái)的3個(gè)問(wèn)題以及擬達成的目標。

(1)政府治理大數據沒(méi)有充分共享

數據共享機制描述數據發(fā)布者、使用者(有些場(chǎng)景下還包括監管者)之間的交互規則,使信息能夠順利流轉。常用的文件共享機制支持在不同實(shí)體之間以文件形式共享信息,但是忽視了各參與實(shí)體的其他訴求。例如,數據發(fā)布者想對數據進(jìn)行確權,充分了解數據的傳播過(guò)程,并可在必要時(shí)限制數據傳播;數據使用者想確保所獲取的數據是真實(shí)、完整、一致的;而數據監管者則期望能確保相關(guān)數據共享規章制度被嚴格貫徹、認真遵循。當前,由于數據未充分共享而造成的治理疏漏并不少見(jiàn)。例如,由于各省間的婚姻系統不聯(lián)網(wǎng),2019年1月江蘇男子張某被曝分別與3位女士登記結婚。

(2)政府治理大數據難以有效集成

數據規模、來(lái)源和質(zhì)量均深刻影響著(zhù)數據集成的難度。政府治理場(chǎng)景面向的治理對象涉及面廣,與之相關(guān)的數據規模宏大,來(lái)源廣泛。為了使場(chǎng)景描述更加準確,部分政府治理場(chǎng)景使用互聯(lián)網(wǎng)上的開(kāi)放數據,這使得信息來(lái)源更加復雜,數據源的挑選愈加困難;由于數據平臺構建的歷史因素、數據采集設備的精度因素、人工錄入因素、不同業(yè)務(wù)領(lǐng)域導致數據標準存在差異,政府治理大數據的質(zhì)量不高、規格不一,有效集成的難度很大。

(3)政府治理大數據有待深度融合

將低價(jià)值密度的大數據通過(guò)數據融合轉換為高價(jià)值密度的知識是政府治理大數據管理的宗旨,而精準發(fā)現大數據中的實(shí)體及其語(yǔ)義關(guān)聯(lián)是提升大數據價(jià)值特征的核心。例如,中國人民銀行為國內的法人單位建立資信評級時(shí)需要融合多源信息,并挖掘深層的語(yǔ)義關(guān)系。行為數據會(huì )隨著(zhù)時(shí)間增加而動(dòng)態(tài)變化,在某些場(chǎng)景下甚至會(huì )急劇變化。例如,信用評級機構基于日常行為數據對法人(或自然人)評級;但在極端情況下(例如經(jīng)營(yíng)不善等),法人(或自然人)可能會(huì )表現出與其當前等級明顯不符的行為。例如,2019年出現多起網(wǎng)貸平臺跑路事件,如果能預先將數據進(jìn)行深度融合,將能有效對網(wǎng)貸平臺的信用度進(jìn)行預警,從而防范社會(huì )風(fēng)險。

近幾年來(lái),我國在加快數據開(kāi)放與共享、推進(jìn)政府治理創(chuàng )新方面已經(jīng)前進(jìn)了一大步。一方面,各地方政府積極推出便民平臺,改進(jìn)工作流程,讓數據多跑路,讓群眾少跑腿,使得用戶(hù)只需要訪(fǎng)問(wèn)一個(gè)平臺就能夠辦理多項業(yè)務(wù),例如廣東省的“粵省事”、上海市的“一網(wǎng)通辦”、浙江省的“浙里辦”等App平臺。另一方面,各地積極基于大數據技術(shù)構建智慧城市,提升城市治理的智能化水平。例如,浙江省“城市大腦”已經(jīng)形成了一批成熟應用,整合多源信息,在交通等領(lǐng)域進(jìn)行了創(chuàng )新??梢钥闯?,盡管政府治理大數據的共享與融合能夠顯著(zhù)提升政府的治理水平,并且已經(jīng)在部分地區和領(lǐng)域中有了良好的示范效應,但是還需要努力克服存在的挑戰,以深化政府治理體系和治理能力現代化建設。部分學(xué)者也已經(jīng)意識到大數據融合方面的問(wèn)題與挑戰,本文聚焦政府治理領(lǐng)域的數據共享與融合。

2 數據共享

數據共享旨在破除不同治理實(shí)體之間的數字藩籬,搭建數據流通渠道,在共享過(guò)程中需要綜合考慮架構、隱私、合規和溯源等因素。首先,不同數據共享架構能夠支持的功能差異顯著(zhù),使用方需要結合應用場(chǎng)景理性選??;其次,隱私保護是數據共享的基礎訴求之一,為了鼓勵用戶(hù)共享數據以推進(jìn)協(xié)作,必須要確保用戶(hù)隱私安全;再次,整個(gè)共享過(guò)程的合規化操作可避免其他主觀(guān)因素的影響,增強整體可信度;最后,溯源機制在多方參與的機制中起到事中監管、事后追責的作用,維護整個(gè)過(guò)程正常推進(jìn)。

2.1 數據共享架構

按照數據發(fā)布者和使用者構成的網(wǎng)絡(luò )拓撲不同,可將數據共享架構劃分成3種。

第一種也是最常用的數據共享架構是集中式架構。參與政府治理的所有主體之間預先約定好一個(gè)公共服務(wù)器,繼而主動(dòng)將數據傳送到該服務(wù)器。服務(wù)器設定數據訪(fǎng)問(wèn)規則,允許參與治理的主體以不同權限訪(fǎng)問(wèn)服務(wù)器上的數據,例如Web服務(wù)器或者文件傳輸協(xié)議(file transfer protocol,FTP)服務(wù)器。盡管這種架構的結構簡(jiǎn)單,但是仍然存在明顯的不足之處。首先,在網(wǎng)絡(luò )部署上可能引發(fā)爭議。若治理實(shí)體之間存在上下級關(guān)系,則上級實(shí)體可以通過(guò)行政手段決定網(wǎng)絡(luò )部署方式;而若治理實(shí)體之間是平級關(guān)系(無(wú)隸屬關(guān)系),則服務(wù)器由哪個(gè)單位進(jìn)行管理會(huì )成為焦點(diǎn)議題。其次,這種集中式架構還存在單點(diǎn)故障和性能缺陷,一旦由于黑客攻擊、軟硬件故障等原因導致服務(wù)器宕機,則所有數據訪(fǎng)問(wèn)服務(wù)均會(huì )被迫中止,且整個(gè)系統的數據訪(fǎng)問(wèn)能力受限于服務(wù)器的性能,當大量數據訪(fǎng)問(wèn)請求同時(shí)到達時(shí),系統性能會(huì )急劇降低。最后,這種架構無(wú)法確保數據的可信性,具有管理員權限的治理實(shí)體成為強勢的一方,具備數據修改的能力,而不具備管理員權限的治理實(shí)體則處于相對弱勢的一方(通常不將管理員權限賦予所有實(shí)體,以保障系統安全性)。

第二種架構基于對等網(wǎng)絡(luò ),將數據分散部署在整個(gè)網(wǎng)絡(luò )中,該網(wǎng)絡(luò )中沒(méi)有特定的服務(wù)器節點(diǎn),所有節點(diǎn)既可提供數據,又可消費數據。由于(多副本)數據分散在不同網(wǎng)絡(luò )節點(diǎn),而非單一節點(diǎn)上,因此可避免單點(diǎn)故障缺陷,且可擴展性更強。對等網(wǎng)絡(luò )的共享方式包括非結構化對等網(wǎng)絡(luò )和結構化對等網(wǎng)絡(luò )2種。非結構化對等網(wǎng)絡(luò )較為簡(jiǎn)單,對節點(diǎn)之間的拓撲結構并無(wú)特別約定,只需要記錄鄰接節點(diǎn)信息,但是無(wú)法保證以低時(shí)間復雜度來(lái)處理數據查詢(xún)請求,典型系統如Gnutella。結構化對等網(wǎng)絡(luò )則對網(wǎng)絡(luò )節點(diǎn)進(jìn)行精心部署,使用分布式哈希表(distributed Hash table, DHT)來(lái)提升數據訪(fǎng)問(wèn)效率,典型的結構化對等網(wǎng)絡(luò )包括Chord。與第一種架構相比,這種架構的最大優(yōu)勢是能夠克服單點(diǎn)故障,然而這種架構仍然無(wú)法確保數據的可信性,不排除數據在共享過(guò)程中被篡改的可能。

第三種架構通過(guò)區塊鏈來(lái)實(shí)現數據共享。區塊鏈技術(shù)利用共識機制在不可信網(wǎng)絡(luò )中為各參與方構建信任關(guān)系,確保數據不易被篡改。區塊鏈系統通??梢员粍澐譃楣墟満驮S可鏈。公有鏈面向全網(wǎng)公開(kāi),無(wú)用戶(hù)授權機制,如比特幣、以太坊(Ethereum) 等;許可鏈有用戶(hù)授權機制,僅允許授權的用戶(hù)和節點(diǎn)加入,如超級賬本(Fabric) 等。由于現有區塊鏈系統的數據管理能力較弱,一些學(xué)者嘗試將區塊鏈與數據庫技術(shù)結合,提升數據管理性能,華東師范大學(xué)提出的師大鏈數據庫(semantics empowered blockchain database,SEBDB)就是構建于許可鏈之上的區塊鏈數據庫系統。典型的共識協(xié)議包括工作量證明(proof of work, POW)、權益證明(proof of stake,POS)和實(shí)用拜占庭協(xié)議(practical Byzantine fault tolerance,PBFT)及其變種。工作量證明機制根據各節點(diǎn)的計算資源進(jìn)行投票,并要求可信節點(diǎn)控制的計算資源多于一半;權益證明機制根據各用戶(hù)擁有的權益比重進(jìn)行投票;實(shí)用拜占庭協(xié)議能夠在n≥3f+1(n是網(wǎng)絡(luò )節點(diǎn)數,f是不可信節點(diǎn)數)的條件下解決拜占庭將軍問(wèn)題。

表2列舉了3種數據共享架構及其特點(diǎn)。

2.2 數據隱私保護

政府治理大數據共享必須重視隱私保護。我國早已立法明確政府信息公開(kāi)中“保護個(gè)人隱私”的原則?!吨腥A人民共和國政府信息公開(kāi)條例》中第十四條規定:行政機關(guān)不得公開(kāi)涉及國家秘密、商業(yè)秘密、個(gè)人隱私的政府信息。但是,經(jīng)權利人同意公開(kāi)或者行政機關(guān)認為不公開(kāi)可能對公共利益造成重大影響的涉及商業(yè)秘密、個(gè)人隱私的政府信息,可以予以公開(kāi)。由于用戶(hù)隱私泄露而造成負面社會(huì )效應的案例屢見(jiàn)不鮮。在大數據背景下,當來(lái)自不同數據源的數據經(jīng)過(guò)整合之后,數據相互關(guān)聯(lián)就會(huì )揭示更多知識。例如,2006年8月,美國在線(xiàn)(American Online,AOL)公布了大量舊的搜索查詢(xún)數據(數據已經(jīng)經(jīng)過(guò)脫敏處理,包括用戶(hù)名稱(chēng)和地址等個(gè)人信息),《紐約時(shí)報》在幾天內綜合分析“60歲的單身男性”“有益健康的茶葉”“利爾本的園丁”等搜索記錄之后,發(fā)現第4417749號代表是佐治亞州利爾本的一位62歲的寡婦塞爾瑪·阿諾德。典型的隱私保護技術(shù)包括匿名化、加密處理和多方隱私技術(shù)等。匿名化技術(shù)將數據的關(guān)鍵部分模糊化處理,從而保護用戶(hù)隱私,例如,k-匿名技術(shù)就是將當前數據項與其他至少k-1個(gè)數據項進(jìn)行模糊化處理,使得這k個(gè)數據項之間不可區分。加密處理將明文轉化為密文,以保護私密信息。多方隱私保護下的數據集成技術(shù)(或稱(chēng)多方PPRL)還處于起步階段,主要支持精確匹配,例如將各個(gè)數據源的記錄編碼,然后傳入另一方進(jìn)行對比。參考文獻提出了一種基于安全多方計算的精確匹配方法,參考文獻提出一種基于k-匿名的支持多約束條件的隱私保護方法。

除了上述以軟件和算法的方式來(lái)保護用戶(hù)隱私之外,還可以通過(guò)構建細粒度的訪(fǎng)問(wèn)控制以及基于可信執行環(huán)境(trusted execution environment,TEE)來(lái)保障數據隱私。鑒于政府治理大數據分別屬于不同治理實(shí)體,且不同治理實(shí)體的訪(fǎng)問(wèn)權限不同,可以借鑒面向對象設計(objectoriented design,OOD)的思想,設定多層級訪(fǎng)問(wèn)權限,包括開(kāi)放可訪(fǎng)問(wèn)、敏感不可訪(fǎng)問(wèn)、部分用戶(hù)可訪(fǎng)問(wèn)等。通過(guò)分級權限來(lái)限制對數據的訪(fǎng)問(wèn)。TEE可保護敏感而又無(wú)法脫敏的數據。軟件防護擴展(software guard extensions,SGX)是典型的TEE,它將敏感數據和操作轉移至Enclave(即SGX的可信內存)中進(jìn)行處理,而數據和操作在其他地方以密文的方式存在。借助于可信硬件的數據保護方式比同態(tài)加密、零知識證明等傳統密碼學(xué)方法更靈活和高效。

2.3 共享流程合規化

數據共享流程由多個(gè)治理主體共同參與,并遵循特定管理制度。程序透明增強了共享流程的公平性。為確保整個(gè)流程自動(dòng)化執行,避免人為干預,可將相關(guān)規章制度預先編制成可自動(dòng)運行的程序。當外部條件滿(mǎn)足時(shí),該程序自動(dòng)被觸發(fā)運行,整體上流程不需要人工介入。智能合約就是一段自動(dòng)運行、可驗證的程序,以數字化方式讓各參與方履行特定承諾。在基于智能合約的數據共享流程自動(dòng)化機制中,行政部門(mén)將數據共享的管理制度轉化為智能合約代碼,采用形式化方式嚴格定義各參與主體的義務(wù),明確每條義務(wù)的實(shí)施主體、前提條件、具體內容以及完成期限;同時(shí),定義一項義務(wù)的各種狀態(tài),如激活、就緒、滿(mǎn)足、過(guò)期以及違約等,并分析各狀態(tài)之間的轉換條件。當某個(gè)參與主體未及時(shí)履行預先約定的義務(wù)時(shí),管理部門(mén)作為實(shí)施主體對該參與主體進(jìn)行處罰。管理制度的運行實(shí)例可等價(jià)為一個(gè)有窮狀態(tài)機,其運行機制由組成此制度的所有義務(wù)共同決定。管理部門(mén)可使用圖形化建模工具來(lái)制定制度,將規章制度自動(dòng)生成對應的狀態(tài)機,并展現制度的運行過(guò)程,自動(dòng)分析并顯示異常的運行狀態(tài),為管理部門(mén)對制度改進(jìn)提供決策支持。

2.4 數據溯源

施政效果評估和責任追究是政府治理的重要內容?;谡卫硇袨榇髷祿_(kāi)展溯源分析,能夠評估施政效果和責任認定。數據溯源是指數據產(chǎn)生并隨時(shí)間推移而演變的過(guò)程。2017年,國家食品藥品監督管理總局發(fā)布了《關(guān)于食品生產(chǎn)經(jīng)營(yíng)企業(yè)建立食品安全追溯體系的若干規定》,推動(dòng)食品生產(chǎn)經(jīng)營(yíng)企業(yè)建立食品安全追溯體系?;陉P(guān)系數據庫的溯源系統有DBNotes、Perm、Trio等。DBNotes系統基于關(guān)系數據庫對溯源標注信息進(jìn)行管理。Perm系統利用查詢(xún)重寫(xiě)規則改寫(xiě)SQL查詢(xún),以追蹤數據溯源信息。Trio系統是一個(gè)不確定數據庫上的數據世系管理系統,將數據不確定性和溯源信息緊密整合在一起。區塊鏈系統將所有操作按照時(shí)間順序進(jìn)行存儲,難以篡改,且新數據只能以添加的方式加入區塊鏈 系統之中,能有效提供數據溯源功能。參考文獻[17]研究了如何基于區塊鏈設計食品安全溯源體系。

3 數據集成

政府治理大數據來(lái)源豐富、領(lǐng)域多樣、發(fā)展歷程迥異,因而不同來(lái)源的數據格式不一,且存在質(zhì)量問(wèn)題。數據集成旨在以統一模式訪(fǎng)問(wèn)不同數據,包括數據源選擇和數據模式匹配2個(gè)方面。

3.1 數據源選擇

精準選擇數據源是實(shí)現數據集成結果準確的前提。當數據源數量較少時(shí),使用人工方式就能夠較為有效地篩選出合適的數據源。而當數據來(lái)源較多時(shí),難以借助人工方式有效地挑選出合適的數據源。特別地,如果嘗試結合互聯(lián)網(wǎng)數據進(jìn)行治理,則數據源的數量就急劇增多,需要設計算法來(lái)高效、精準地選擇數據源,以解決應用需求。由于政府治理大數據包含大量行為數據,在選擇數據源時(shí)不僅需要考慮更加廣泛的質(zhì)量維度,以解決面向實(shí)體和行為數據的集成,還要根據目標模式自動(dòng)構建候選模式集成處理路徑。數據源選擇方法可分為按需驅動(dòng)的選擇方法和基于多質(zhì)量維度的選擇方法2種。

(1)按需驅動(dòng)的數據源選擇方法

這種方法在目標模式和數據源模式之間匹配關(guān)聯(lián)信息,反向構建出包含多個(gè)模式集成處理路徑的候選集合,并最終找出滿(mǎn)足集成需求的數據源模式結構與集成方式。目標模式通常是一個(gè)以實(shí)體為核心的關(guān)聯(lián)數據整體,其結構可以映射到共享數據的模式關(guān)聯(lián)圖上。首先,基于共享數據生成模式關(guān)聯(lián)圖,采用基于圖結構的查詢(xún)方法尋找與目標模式匹配的候選模式集合。然后,基于候選數據模式間的匹配關(guān)系,利用數據集成算子創(chuàng )建由集成操作構成的有向無(wú)環(huán)圖集合。最后,進(jìn)一步提出約簡(jiǎn)策略,以減少不必要的操作,降低數據集成的運算代價(jià)。

(2)基于多質(zhì)量維度的數據源選擇方法

這種方法通過(guò)面向數據質(zhì)量的數據源選擇策略管理參與數據集成的數據源,從而保證集成結果在完整性、精確性和時(shí)效性等維度上的質(zhì)量需求。首先,從數據源的多質(zhì)量維度(同一性、完備性、精確性、時(shí)效性以及綜合質(zhì)量)構建數據源質(zhì)量評價(jià)模型,用于獨立評價(jià)數據源的各維度質(zhì)量;其次,定義多維度的綜合評價(jià)模型和數據源集成代價(jià)評估模型;最后,構建利益代價(jià)模型,并以此選擇集成數據源。參考文獻意識到數據準確性的重要性,提出了面向數據融合的數據源選擇方法,從數據質(zhì)量和集成代價(jià)的平衡上選擇數據源。參考文獻進(jìn)一步提出了融合覆蓋率、新鮮性和準確性質(zhì)量等多個(gè)維度的數據源選擇方法,并在此基礎上實(shí)現了數據源選擇系統SourceSight。

3.2 數據模式匹配

數據模式匹配內容豐富,包括基于實(shí)例的匹配、基于模式信息的匹配、混合匹配等。近期有部分工作采用機器學(xué)習特別是深度學(xué)習來(lái)提高模式匹配的效果,包括采用概率推理方法從所有候選模式中找出最優(yōu)結果。

數據模式匹配的一個(gè)難點(diǎn)在于部分數據源質(zhì)量低下、缺乏表頭信息、規模龐大且增長(cháng)迅速,無(wú)法精確匹配模式。在此情況下,可以采用概率模式匹配方法篩選出潛在的匹配模式,并評估其可信度。當數據源的數目較多時(shí),簡(jiǎn)單羅列出所有潛在的模式匹配組合及其發(fā)生概率的計算開(kāi)銷(xiāo)太大,需要靈活運用剪枝策略縮小搜索空間,構造出一個(gè)包含少量模式匹配組合的候選集合,并最終生成概率模式。參考文獻提出了一種基于概率模型的全局數據模式生成方法。另外,為解決開(kāi)放數據規模龐大的問(wèn)題,還可以劃分原始數據,將任務(wù)分攤到不同節點(diǎn)之中,采用分布式架構提升效率。例如,以Spark為代表的通用并行處理框架具備良好的水平擴展能力,可支持海量開(kāi)放數據的模式匹配。

4 數據融合

數據融合指將來(lái)自政府治理中不同數據源的同一實(shí)體(如企業(yè)、個(gè)人)的不同表象融合成單一表象,消除潛在的數據沖突。數據融合包括實(shí)體匹配、實(shí)體鏈接與關(guān)聯(lián)、動(dòng)態(tài)數據的語(yǔ)義關(guān)聯(lián)3個(gè)方面。首先,通過(guò)實(shí)體匹配在多個(gè)數據源中找出指向同一實(shí)體的記錄;其次,需要明確實(shí)體之間的鏈接與關(guān)聯(lián)關(guān)系;最后,實(shí)體本身以及實(shí)體之間的關(guān)聯(lián)關(guān)系都會(huì )隨著(zhù)時(shí)間推移而不斷演化。

4.1 實(shí)體匹配

實(shí)體匹配也被稱(chēng)為記錄連接、重復數據刪除,旨在找出存在于多個(gè)數據源中但指向同一實(shí)體的記錄集合。例如,同一企業(yè)對應的地址信息在政府的不同數據源中,往往存在多種表述方式。通過(guò)實(shí)體匹配不僅可以減少數據的冗余,而且拼接碎片化數據可以提高數據質(zhì)量。當前基于實(shí)體局部結構特性(實(shí)體屬性或實(shí)體間關(guān)系)進(jìn)行匹配的方法具有復雜性較高的缺點(diǎn)。

此外,還可以充分利用數據間豐富的關(guān)聯(lián)關(guān)系從以下3個(gè)方面提升實(shí)體匹配的準確性和效率。其一,利用圖能夠有效表示數據對象間拓撲關(guān)系的能力,可以將共享集成的結構化數據集構建為數據對象關(guān)系圖,再基于圖迭代進(jìn)行實(shí)體匹配;對象之間的相似度可以綜合屬性相似度、結構相似度、語(yǔ)義路徑相似度來(lái)計算;針對復雜數據記錄匹配,可以依據數據之間的關(guān)聯(lián)關(guān)系構建有向依賴(lài)圖,按依賴(lài)關(guān)系確定匹配順序,減少匹配次數。其二,可以綜合采用哈希方法和位計算提高匹配準確性和效率。針對快速到來(lái)的時(shí)序數據,采用哈希方法對數據記錄進(jìn)行快速分塊,不僅具有高效率和高準確性,且不需要進(jìn)行全局數據排序??蓛?yōu)先選擇識別度高的屬性進(jìn)行哈希處理,提高分塊中候選匹配對的數量,對于塊可匹配估計方法,可以結合哈希計算和位計算提高塊中可匹配候選對的準確性和效率。優(yōu)先選擇塊匹配冗余度高的分塊進(jìn)行實(shí)體匹配,從而在最短時(shí)間內獲得更多的匹配對。其三,可以通過(guò)分布式架構提高實(shí)體匹配的效率。在利用分布式并行處理平臺的同時(shí),盡量減少通信代價(jià),可以采用多屬性哈希實(shí)現更精準的分塊;均衡分布節點(diǎn)上的處理任務(wù),降低總匹配時(shí)間,可以通過(guò)構建分層的分塊模型和優(yōu)化組合來(lái)均衡不同處理節點(diǎn)上的匹配任務(wù)。

4.2 實(shí)體鏈接與關(guān)聯(lián)

政府治理中的同一實(shí)體通常并不僅僅在一個(gè)系統中出現,而是存在于多個(gè)系統中,且互相鏈接與關(guān)聯(lián)。例如,同一企業(yè)法人的信息既有來(lái)自工商管理部門(mén)系統的基本信息,又有蘊含于開(kāi)放的互聯(lián)網(wǎng)中的大量交互行為信息。為了更全面地刻畫(huà)企業(yè)的誠信特征,需要將互聯(lián)網(wǎng)中的多個(gè)記錄與工商管理部門(mén)知識庫中的該實(shí)體鏈接起來(lái)。實(shí)體鏈接技術(shù)通過(guò)基于屬性的模型和基于關(guān)系的模型在不同系統中找出針對同一實(shí)體的描述記錄,從而形成更加全面的實(shí)體信息,其中,涉及實(shí)體鏈接、消除實(shí)體歧義和復雜數據之間實(shí)體關(guān)聯(lián)。實(shí)體鏈接與關(guān)聯(lián)通過(guò)建立知識庫中的知識條目與待消歧實(shí)體的對應關(guān)系實(shí)現消歧,它包含2個(gè)步驟:候選集生成、候選實(shí)體消歧。候選集生成的方法主要有基于信息檢索的方法、基于查詢(xún)表述上下文的方法等。參考文獻提出了一種減少候選集規模的方法。候選實(shí)體消岐方法大致有2類(lèi):基于相似度計算的實(shí)體鏈接方法、基于有監督學(xué)習的實(shí)體鏈接方法。其中,基于有監督學(xué)習的實(shí)體鏈接方法在性能上有進(jìn)一步改進(jìn)。由于實(shí)體語(yǔ)義模糊和異構網(wǎng)絡(luò )知識有限,Shen W等人考慮了實(shí)體的流行度,提出了基于概率鏈接模型的知識流行度算法,將鏈接模型以高可靠性映射到上下文信息,迭代豐富網(wǎng)絡(luò )實(shí)體,從而提高鏈接性能。

為了提升實(shí)體鏈接和關(guān)聯(lián)的效率,可以從以下3個(gè)方面進(jìn)行改進(jìn)。其一,考慮政府領(lǐng)域、跨系統語(yǔ)料變化和社交媒體短文本等特點(diǎn),基于用戶(hù)行為特征進(jìn)行實(shí)體關(guān)聯(lián),即將用戶(hù)行為特征抽象為時(shí)間、地點(diǎn)和主題三維模型,通過(guò)學(xué)習訓練用戶(hù)行為數據的多維度特征,聚類(lèi)用戶(hù)的三維行為特征,完善用戶(hù)的行為模式;再構建基于用戶(hù)行為聚類(lèi)特征的相似度度量模型,改善基于用戶(hù)行為特征的用戶(hù)匹配準確性。其二,為克服復雜文本、噪聲數據和半結構化數據的挑戰,可以通過(guò)深度學(xué)習方法研究跨系統結構化和非結構化數據之間實(shí)體關(guān)聯(lián)技術(shù),提高實(shí)體關(guān)聯(lián)模型的魯棒性和擴展性。其三,利用政府治理領(lǐng)域知識和機器學(xué)習方法、結構化數據相似性判別技術(shù),聚類(lèi)同一實(shí)體的所有記錄,保證高內聚、低歧義。在跨系統實(shí)體鏈接和關(guān)聯(lián)過(guò)程中存在數據沖突,可基于各系統的數據源質(zhì)量解決沖突問(wèn)題。

4.3 動(dòng)態(tài)數據的語(yǔ)義關(guān)聯(lián)

在政府治理場(chǎng)景中,實(shí)體會(huì )隨著(zhù)時(shí)間推移而變化,需要準確關(guān)聯(lián)用戶(hù)行為,以捕獲序列事件的演化規律。例如,一個(gè)法人(用戶(hù))的信用會(huì )隨著(zhù)時(shí)間的推移而發(fā)生改變,盡快檢測到語(yǔ)義變化有助于及時(shí)制定應對措施。實(shí)體的屬性值會(huì )隨時(shí)間變化,同一實(shí)體對應的多條記錄會(huì )出現不一致的情況,為了發(fā)掘動(dòng)態(tài)數據中的語(yǔ)義關(guān)聯(lián),需要細粒度地分析變化。文本詞語(yǔ)會(huì )隨著(zhù)時(shí)間發(fā)生語(yǔ)義變化,參考文獻提出了動(dòng)態(tài)統計模型以學(xué)習時(shí)間感知的詞語(yǔ)表示,獲取動(dòng)態(tài)數據中語(yǔ)義關(guān)聯(lián)。尤其是隨著(zhù)移動(dòng)社交網(wǎng)絡(luò )的發(fā)展,同一實(shí)體在空間和時(shí)間上會(huì )有多樣記錄,參考文獻提出了基于K-L散度的關(guān)聯(lián)模型鏈接兩類(lèi)數據源中的時(shí)空記錄,并通過(guò)時(shí)間和空間過(guò)濾機制降低匹配的搜索空間。針對高動(dòng)態(tài)性及實(shí)效敏感的數據源,參考文獻提出了擴散隨機梯度下降算法,對不同樣本分配實(shí)效感知權重,增強模型對動(dòng)態(tài)數據的處理能力。在非結構化數據中,傳統詞嵌入方法無(wú)法表征語(yǔ)料信息的變化歷史,參考文獻提出了時(shí)態(tài)詞向量法,可以有效分析實(shí)體的演化過(guò)程。

為提升動(dòng)態(tài)數據的語(yǔ)義關(guān)聯(lián)效率,可以從以下3個(gè)方面進(jìn)行改進(jìn)。首先,可以面向演化數據對實(shí)體進(jìn)行關(guān)聯(lián),為精準關(guān)聯(lián)具有演化特性的同一實(shí)體,可定義精準的時(shí)間模型和相應的相似度計算算法,并通過(guò)基于深度學(xué)習的動(dòng)態(tài)分布表示法刻畫(huà)語(yǔ)義遷移和涌現,提高關(guān)聯(lián)演化實(shí)體的準確性。其次,針對實(shí)體關(guān)聯(lián)關(guān)系的實(shí)時(shí)演化技術(shù),為結合行為數據準確關(guān)聯(lián)用戶(hù)或事件的演化規律,克服由于實(shí)體名稱(chēng)改變或隱匿造成的實(shí)體重復副本,可定義結合實(shí)體語(yǔ)義相關(guān)性、實(shí)體關(guān)聯(lián)性和實(shí)體的時(shí)序特征的事件演化模型,為每個(gè)實(shí)體構建時(shí)間活動(dòng)路徑,通過(guò)路徑相似度判別潛在相同實(shí)體。最后,為解決現有實(shí)體關(guān)聯(lián)預測技術(shù)大多針對靜態(tài)數據的問(wèn)題,可以考慮增量式的動(dòng)態(tài)語(yǔ)義關(guān)聯(lián)維護技術(shù),通過(guò)結合已有匹配結果實(shí)現快速計算,從而捕獲用戶(hù)的演化特性。

5 案例分析

本文成稿之時(shí),正逢新型冠狀病毒引發(fā)的肺炎疫情在我國肆虐,疫情兇猛。截至2020年3月1日24時(shí),據31個(gè)?。ㄗ灾螀^、直轄市)和新疆生產(chǎn)建設兵團報告,累積報告確診病例80 026例,確診病例遠超17年前的非典疫情。全國上下眾志成城、萬(wàn)眾一心,以極大的努力和決心投入抗擊疫情的工作之中。作為數據科學(xué)研究人員,筆者也在深入反思這次抗擊疫情過(guò)程中暴露出來(lái)的問(wèn)題是否能夠以更高效的方式解決。以下是政府治理大數據的共享、集成與融合方面面臨的一些實(shí)際挑戰。

(1)信息孤島現象依然存在

科學(xué)應對疫情的前提是能夠準確了解與疫情相關(guān)的關(guān)鍵性數據。但是在對抗疫情的過(guò)程中,一些關(guān)鍵性的數字掌握得不夠及時(shí)、準確,例如當地醫療物資的儲備和消耗情況、區域內的醫療物資的生產(chǎn)能力和調撥能力等。相關(guān)信息的互聯(lián)互通有助于統一決策、統一規劃,以充分利用有限的資源抗擊疫情。

(2)確保共享數據的真實(shí)性

疫情暴發(fā)之后,網(wǎng)上謠言滿(mǎn)天飛,并且通過(guò)社交工具迅速傳播。造謠一張嘴,辟謠跑斷腿。數據的真實(shí)性非常重要。如何通過(guò)技術(shù)手段識別信息的真偽,如何及時(shí)發(fā)現并切斷虛假的甚至是惡意的信息傳播,如何分析謠言傳播的路徑等,都非常值得進(jìn)一步探討。

(3)確保共享數據可追溯,提升可信性

由于疫情暴發(fā)具有突然性,這使得醫療物資(例如口罩)成為緊俏物資,不少廠(chǎng)商紛紛加大生產(chǎn)力度,支援抗疫一線(xiàn)。但是在這種緊急情況下,仍然有不法商家生產(chǎn)假冒偽劣產(chǎn)品,借以牟利,造成了惡劣的社會(huì )影響。在此,如果能夠構建基于區塊鏈技術(shù)的物資數據可溯源平臺,則能夠排除偽劣產(chǎn)品,保障物資安全。另外,在本次疫情中,世界各地的愛(ài)心人士捐款捐物,非常踴躍。捐贈系統中數據的透明性和可信性能夠極大地影響捐贈熱忱。

(4)綜合多個(gè)數據來(lái)源的數據集成將不同來(lái)源的數據集成起來(lái)能夠增加對整體事件的透視性。在抗擊疫情過(guò)程中,數據來(lái)源眾多,及時(shí)集成相關(guān)數據才可客觀(guān)評判事態(tài)發(fā)展。在2020年1月29日中央指導組派出督查組趕赴黃岡市進(jìn)行督查核查時(shí),黃岡市衛生健康委員會(huì )主任對黃岡市定點(diǎn)醫院收治能力、核酸檢測能力的明確數據等均不了解。推而廣之,在政府治理過(guò)程中實(shí)時(shí)匯聚多源數據,可以輔助領(lǐng)導層快速應對突發(fā)事件。

(5)實(shí)體關(guān)聯(lián)與融合提升服務(wù)民眾

疫情暴發(fā)以來(lái),各地政府和機構通過(guò)不同渠道發(fā)布疫情通報,不僅有病例數據、密切接觸者尋找通知,也有關(guān)于公共交通車(chē)次的調整信息。這些信息來(lái)源雜、數量大、增長(cháng)快。如果能夠從實(shí)體層級匯聚多源信息,并且找出不同實(shí)體之間的關(guān)聯(lián)關(guān)系,則能夠更加清晰地表明疫情發(fā)展情況。

(6)動(dòng)態(tài)數據的實(shí)時(shí)演化

疫情的發(fā)展隨時(shí)間變化而不斷演變,從疫情暴發(fā)以來(lái),騰訊、新浪等門(mén)戶(hù)網(wǎng)站每日實(shí)時(shí)發(fā)布疫情地圖,顯示不同地域確診案例、疑似案例、重癥案例等關(guān)鍵信息的變化軌跡。分析動(dòng)態(tài)數據的實(shí)時(shí)演化過(guò)程能夠讓人們更加清晰地了解疫情發(fā)展的整個(gè)過(guò)程以及各項措施所取得的成效,從而不斷調整應對方案。

6 結束語(yǔ)

綜上所述,政府治理大數據的共享、集成與融合需要從理論、機制、實(shí)踐等方面進(jìn)行深入的研究?,F有的方法都存在一些不足。為了構建面向政府治理大數據的高可信共享模型、高精準集成機制、高效率融合機理,還需要從以下3個(gè)方面進(jìn)行努力。首先,研究政府治理大數據高可靠共享技術(shù),包括可確保所共享數據可信、可驗證的數據證明機制,可復現數據演化過(guò)程的數據溯源技術(shù),可確保數據管理制度自動(dòng)實(shí)施的流程合約化機制等。其次,研究政府治理大數據高精度集成技術(shù),包括在數據抽取過(guò)程中的持續閉環(huán)迭代能力、在數據源選擇過(guò)程中基于目標約束的自動(dòng)優(yōu)選能力、在模式匹配過(guò)程中的劣質(zhì)數據容忍能力等。最后,研究政府治理大數據高效率融合技術(shù),包括在實(shí)體識別階段采用分布式計算機系統提升可擴展性、在跨系統實(shí)體鏈接與關(guān)聯(lián)階段充分結合用戶(hù)行為數據提升效率、在實(shí)體演化分析方面采用增量式策略提升處理效率等。

《大數據》期刊

《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學(xué)會(huì )大數據專(zhuān)家委員會(huì )學(xué)術(shù)指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。

關(guān)注《大數據》期刊微信公眾號,獲取更多內容

以上就是關(guān)于黃岡大pos機代理,政府治理大數據的共享的知識,后面我們會(huì )繼續為大家整理關(guān)于黃岡大pos機代理的知識,希望能夠幫助到大家!

轉發(fā)請帶上網(wǎng)址:http://www.xjcwpx.cn/news/78274.html

你可能會(huì )喜歡:

版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實(shí),本站將立刻刪除。