深圳市深信信息技術有限公司
電話:400 059 2068
手機(微信):18129918580 13392192523
地址: 深圳市龍崗區龍崗街道南聯社區龍城大道31號金地凱旋廣場4棟3502
網址:hncym.cn
一 引言
近年來,隨著國務院和國家部委一系列意見和政策的出臺,我國農產品質量安全追溯體系建設進入了實質性推進階段。各部委紛紛出臺相關政策,劃撥專用經費用于農產品質量安全追溯體系的建設,并逐漸總結、完善、形成了一套高效適用的工作流程和方法。典型的如農業部國家農產品質量安全追溯平臺、商務部牽頭的重要產品追溯體系及平臺等。
國家平臺的建立,從某種程度上能夠起到規范追溯體系建設、充分發揮政府公信力保障農產品質量安全的作用,但也遇到了非常棘手的問題。隨著全國如火如荼的追溯體系建設的快速推進,各地各級政府部門、行業協會、電商服務機構、甚至企業與合作社都先后建立起了農產品追溯體系和平臺系統,如直接棄用這些系統改用國家平臺,勢必造成巨大浪費,且數據的重新錄入與遷移工作量巨大。那么唯一的選擇就是將各級平臺對接到國家平臺當中,實現追溯數據的分布存儲和集中對接,并在中心端實現不同環節、不同責任主體農產品追溯數據的銜接,完成追溯鏈的聯通。這樣才能在保證現有軟硬件設施及數據資產效益的情況下,實現追溯體系投入產出效益的最大化。
由此引出追溯數據對接的概念,不同于普通的數據項目中的數據同步和數據ETL(指數據的抽取、轉換和裝載)過程。追溯數據的對接是指將不同追溯平臺和系統當中多源異構,標準各異的追溯數據統一對接到中心端,構建追溯數據統一數據湖,并能夠在此基礎上實現供應鏈中不同責任主體農產品追溯數據的“上下關聯”,以保證農產品在供應鏈中流動過程的正向跟蹤和反向溯源。
二 農產品質量安全追溯數據對接的實質
如果要更加深入地了解農產品質量安全追溯數據對接的實質,就必須要了解農產品內部追溯和外部追溯的關系。內部追溯是當前責任主體從收到其他責任主體的一個或多個可追溯農產品實體作為其內部生產/加工流程的輸入,到該農產品實體轉變為當前責任主體出產的農產品/加工/銷售實體之間過程的跟蹤與溯源。而外部追溯則是可追溯農產品實例從一個貿易伙伴(可追蹤農產品來源)物理地移交給另一個(可追溯農產品收件人)的過程的跟蹤和溯源[[1]]。只有將外部追溯和內部追溯關聯起來,才能夠實現真正的全過程追溯。因此,全過程追溯是覆蓋整個供應鏈的、連接農產品生產經營主體內部生產/加工以及農產品在供應鏈中的流動,實現從農產品種/養殖環節到零售終端的正向跟蹤,以及從零售終端到農產品種/養殖環節的反向溯源的過程。任何一個環節的缺失都會造成整個農產品追溯鏈條的斷裂。
圖1內部追溯、外部追溯與全過程追溯的關系
由此可明確一點,追溯數據的對接不同于單純的數據ETL,除了將數據導入中央存儲以外,追溯數據對接還擔負著保證追溯數據能夠保證實現跨責任主體、覆蓋整個供應鏈的農產品實體的跟蹤和溯源的責任,這也是追溯數據對接與普通的數據工程的關鍵差異。
三 追溯數據對接操作的核心含義
明確了追溯數據對接與普通數據導入的差異,再來了解對接本身的含義。漢語詞典中“對接”一次的定義是:將各部分端部的對接部接合固定起來。可以想象并操作“對接”這個動作的過程,會發現在實際對接的過程中,對接的對象或部分必定有且至少有一個是相對靜止的,其他的對象或部分則處于運動中,去不斷找尋靜止的對象或部分,直至達到完全接合,則該部分的對接完成。再觀察宇宙飛船或空間站的對接,也是同樣的過程。由此可以總結出一個規律:如果要實現對接,那么對接各方中至少要有一個是相對固定或靜止的,才能保證對接過程的實現。
數據的對接也是如此。如果參與一次對接的兩個數據集的數據元[[2]]都在變化著,那么數據對接的過程是不可能完成的。只有其中一個數據集的數據元固定,其他數據集才有可能依據相應規則將數據存儲到這個數據集當中來。而這個數據元固定的數據集一定是中心端的數據集,因為所有其他第三方的數據集都要對接到這里。除了數據元相對固定,中心端數據集的數據元在設計上還必須能夠保證整個追溯數據鏈的連接。更確切地說,按照國際公認的“One up, one down”[[3]]追溯最低要求,保證每個責任主體都至少能追溯到其上游原料供應責任主體,并向下游生產流通責任主體共享追溯數據,以通過每個責任主體追溯數據的前后銜接“串”起整個追溯數據鏈條。而其中的關鍵就是追溯數據元的設計。
四 追溯數據對接的實施步驟
通過以上分析,可以歸納出追溯數據對接的實施步驟:
1、數據元方案設計
為保證農產品質量安全追溯數據的順利對接,實現數據集中與追溯數據關聯的目標,需要預先根據所要對接的產品性質設計一套通用的追溯數據元標準,用于規范第三方數據向中心端數據湖上傳數據。該數據元標準通常是中心端為保證跨供應鏈的追溯數據聯通的最小數據元集合。
圖2追溯數據對接的實施步驟
2、數據檢驗
需對要對接的第三方追溯數據進行整體檢驗,確定其是否滿足對接要求。最重要的是第三方追溯數據是否包含了步驟1中所指定的核心追溯數據元標準。因為核心追溯數據元標準規定了保證追溯數據關聯的最小數據集合,因此哪怕是一個數據元的缺失都可能造成整個追溯鏈的斷裂。因此不滿足要求的第三方追溯數據提供者需要對相關系統進行改造后,使之能夠滿足核心追溯數據元的要求,才能實施數據對接。
3、建立數據元映射
滿足要求的第三方追溯數據集需要依據追溯核心數據元標準,建立第三方數據集與中心端數據湖數據元的一一映射關系,以保證第三個數據以規范統一的格式進入數據湖,以便開展后續的數據關聯和分析工作。
4、數據上傳
映射關系建立完成,則可啟動第三方追溯數據的上傳。為保證數據上傳不會重復,需要對該上傳過程進行控制,如設計數據同步的CDC (change data capture))功能,僅實現增量數據的及時上傳與同步。
5、數據連接與分析
數據上傳同步完成,在中心端數據湖當中就有了農產品在供應鏈不同環節、不同責任主體間流動的追溯數據,就能夠實現以全過程追溯為目的的追溯數據關聯查詢與分析了,也就是通常所講的全過程追溯。
五 中央存儲與分布式存儲之爭
追溯數據對接與同步的中央存儲與分布存儲之爭由來已久。追溯數據上傳至統一的中心端數據存儲,能夠最大程度保證數據的規范性,確保追溯數據的連通性,有利于全過程追溯的實現。但相應地,會在很大程度上喪失靈活性。目前GS1(GDSN,全球數據同步網絡)和大多數國家追溯平臺都采用這種方式。
而分布式存儲則采用一種追溯數據“按需存取”的方式。追溯數據依照相關標準存放在第三方數據存儲上,需要數據查詢時,由數據代理通過互聯網發出請求到相應的第三方追溯系統,調取權限范圍允許的數據,由數據代理返回給查詢發起者。這種方式的優點是相對靈活,但由于農產品生產經營責任主體對追溯本能的抗拒,如果缺乏有效的機制作為保障,實現預期效果有一定難度。歐盟提出的“Generic Enabler”以及現階段如火如荼的區塊鏈就是采用這樣的思路。目前可見的成功案例除了一些內部供應鏈完整且完全可控的大型企業(如沃爾瑪),尚未見其他成功案例。
具體采用何種方式進行追溯數據對接,最終還是取決于具體的項目需求,權衡利弊后做出選擇。
六 智云天地在追溯數據對接方面所做的工作
預料到追溯數據對接會成為農產品追溯領域的剛性需求,智云天地農業信息技術(北京)有限公司在三年前就開始布局并實現追溯數據對接的技術實現。所做的具體工作包括:
1、參照發達國家全過程追溯系統及其標準制定中央端核心數據元(最小集合)標準。為農產品質量安全追溯數據對接提供規范參考;
2、制定了第三方追溯系統對接數據接口規范。通過“推”模式,基于微服務架構,實現第三方追溯系統數據上傳、轉換與存儲;
3、開發通用農產品追溯第三方數據對接平臺,檢驗第三方數據合法性,開發第三方(企業和服務商)數據對接微服務接口,實現農產品生產經營責任主體統一注冊備案、第三方追溯數據的數據元映射管理、數據上傳,以及中心端基于統一追溯業務模型的全過程追溯數據的關聯與可視化分析呈現等功能。
圖3智云通用農產品質量安全追溯數據對接示意圖
圖4智云通用追溯數據對接平臺中心端和第三方客戶端界面
圖5智云通用追溯數據對接平臺中心端和第三方客戶端界面
目前智云天地農業信息技術(北京)有限公司已經在北京市農業局“北京蔬菜”市域質量安全追溯平臺建設項目中實現了大興區、平谷區、昌平區、密云區、懷柔區、延慶區、順義區、通州區等30余家企業內部追溯平臺追溯數據與市域追溯平臺的對接,實現了部分企業/合作社跨供應鏈的蔬菜產品追溯。
追溯體系的建設是一項復雜的系統工程,涉及到組織結構、追溯數據、軟硬件系統和技術實現等多個必要條件。追溯數據對接作為數據與技術的重要組成部分,其重要性將會逐漸顯現出來,特別對于我國追溯體系建設分散、缺乏統一性和規范性的情況下,已經成為我國追溯體系建設的主要瓶頸,并在某種程度上制約了追溯體系的可持續發展與規范化過程。因此,這一問題應該且必須得到解決。
本文只是討論了追溯數據對接過程中的一些關鍵問題。由于水平所限,缺陷和問題在所難免,懇請各位領導專家批評指正。
侯寧
2018年12月13日