- +1
AI落地:被忽視的數據標注、最隱秘的數據標注
看點:AI在改變人類,而數據則在改變AI。


而將目光轉移到聚光燈外,作為AI技術的底層支撐,數據采集與標注相較算法研究、數據挖掘等AI領域的其他工種,似乎一直以來都是被邊緣化乃至低視的一個存在。
盡管,在通常情況下,人工投喂數據的質量往往直接影響著智能的精度。
而摘掉廉價勞動力的帽子,我們會發現,在被忽視的角落之中,AI數據服務行業也在進行著日新月異的變化。
小到用數據爬蟲抓取互聯網現存數據,并進行拉框,大到根據用戶定制化的硬件以及場景需求,去完成數據的采集與多維度數據標注。這個行業,如今正朝著專業化、細分化、場景化的方向不斷演進。 而在這一過程中,一批諸如百度數據眾包、云測數據等更加專業、更具備實踐經驗的團隊與企業也正應運而出成為行業中的佼佼者。
他們的誕生一方面是這個行業前行的見證者,同時也是開拓者。
那么他們是如何成長起來的?
這個一直被忽略、被邊緣化的行業究竟又發展到了哪個階段?
最后,從他們的角度出發,AI又經歷了怎樣的發展與變遷?
通過深度走訪AI數據服務行業的頭部玩家云測數據以及多位AI數據服務行業從業者,了解他們的故事與對這個行業的看法,我們得以看到數據行業最真實的一面,也進一步從另一個角度看到了AI發展過程之中最隱秘的變化與成長。

作為谷歌首席架構師、谷歌人工智能團隊谷歌大腦(Google Brain)的負責人,Jeff Dean曾在公開場合這樣強調數據對于人工智能算法的重要性:

以上橫軸為數據量,縱軸為準確率,藍色以及綠色線條分別代表深度學習以及傳統算法。 根據Jeff Dean的預判,隨著數據規模的不斷擴大,未來深度學習算法的精度也將不斷提升。
也就是說,處在技術大爆發與數字洪水階段,誰掌握了更多的數據、更精準的數據,那么誰的算法精度也就會更領先一步。
但一直以來,在AI的發展中,數據的采集與標注卻始終在有意或者無意的被忽視著,乃至被邊緣化。
但是在云測數據的總經理賈宇航看來,對于算法落地來說,“數據不僅充當飼料,同時也在逐漸充當嬰兒的奶粉,運動員的優質蛋白一樣,擁有了就可以更好的成長具備競爭力”而想要為算法提供足夠優質的嬰兒奶粉,并沒有那么容易。

舉個簡單的例子,如果只是人臉檢測,那么開源數據集或平臺眾包就可以很快滿足需求。 但隨著技術要求的提升,AI不僅僅是做人臉檢測,而是視線追蹤、或是微表情檢測。 很顯然,這類需求很難通過互聯網或者眾包用戶采集完成。
那么如何解決這個問題? 或許只有更專業的數據采集與標注團隊才能完成這一任務。
也正是基于這樣的市場需求, 2017年,云測旗下AI數據服務品牌云測數據成立 。 基于此前對于To B行業的深刻理解以及專業 化的團隊搭建,云測數據成立不久就躋身國內一流的AI數據服務解決方案提供商。
那么云測數據如何解決上面所說的問題?
賈宇航表示,云測數據的辦法是自建數據采集基地,搭建專門的場景實驗室。 目前,云測數據已經有了200多人的研發與產品經理,以及近千人的數據標注團隊,在規模以及質量上都處在行業前列。
以多角度多姿態的動作采集為例,賈宇航表示,云測數據專門在橫店建了一個數據采集基地,根據客戶訂單需求,進行特定動作、表情和表情的捕捉。
當然,這些不僅是有趣或者單一客戶需求所驅動的成果,而是整個AI數據服務行業從粗放的勞動密集型時代走向精耕細作所必須的過程。
走到如今,AI數據服務行業已經邁向場景化與復雜化,而以眾包用戶進行數據采集的服務形態,已經不能滿足AI企業往下一個階段進化的需求。
賈宇航解釋,現如今,一個完整的數據服務工作流程是由可行性評估到執行,到審核,再到交付四個環節組成。 這中間,如何分工,審核與執行之間又該如何形成反饋閉環,怎樣能夠提升工作效率都是需要經驗摸索以及成本投入的。
以云測數據為例,在進行數據服務時,云測會有專門的研發投入以及不少于350個小時的團隊培訓流程。
通過研發團隊搭建的協同分工流程平臺以及諸如快速框選、快速選點等小工具的開發,可以將數據采集以及標注的速度與效率成倍的提升。以法令紋的采集標注為例,有時候客戶不僅需要將其準確的框選出來,還需要將其進行均勻的四點等分,如果單純的通過手工作業,那么無論效率還是精確度都將受到極大的影響。 但是通過工具的開發,就可以在框選之后,快速的進行自動等分標注。
而針對特定的用戶需求,云測還搭建了專門的場景實驗室,可以基于客戶算法模型定制化搭建采集場景,以達到覆蓋盡可能多的實際場景及邊際場景的目的,保證采集數據契合算法模型,為客戶提供高精度的采集數據。

在AI的落地中,數據服務行業也在不斷自我演進,同時也見證與反哺著下游AI企業的成長與變化。
如果回顧數據服務行業這二十年來的發展,我們會發現在這個行業一定經歷了三大階段的戰事,每一場中都有其代表性的玩家出現,每一階段,也都印證著AI行業發展的腳步。
第一階段,可以簡單概括為免費階段。
這一時期,AI也基本還停留在初步的實驗室階段,對于數據本身的精確度要求并不算高。 比如有企業需要人臉數據,只要把來自社交網絡或者對搜索引擎圖片進行簡單的爬取就能夠滿足基本的需求。
進一步演化出,以ImageNet等開源數據集為代表,企業不再需要自己爬取網絡數據,而是直接使用網上開源的現成數據,進而可以減少很多時間以及精力成本。 但是這種數據偏通用,無法滿足定制化需求。 AI的發展也在這一時期進入一個小高潮,但是距離產業化應用卻還有一定距離。
第二階段,數據服務行業開始有了初步的商業化,眾包成為了這一階段行業的代表性服務形態。
但是相應的,專業性也成為這一時期行業的代表性問題。 首先,是眾包用戶無法滿足客戶對于諸如疲勞駕駛檢測、情緒捕捉等方面的復雜需求; 其次,對于客戶需求的理解方面,眾包用戶由于沒有經受專業的訓練,可能會出現質量參差不齊或者理解不到位的情況。 因此整體所能做的事情相對簡單,無法滿足AI企業往下一個階段進化時的數據需求。
發展至如今,數據服務已經走入第三階段。這一時期,AI落地已經成為行業發展的一大重要階段,AI+5G+IoT催化了數據大爆炸,帶來了廣闊的行業機遇,相應的數據服務也走入了場景化以及精細化時代。
相對應的,云測數據對自身的定位也進一步明確,針對數據的安全性、定制化和精細化提出了更高要求。
針對高安全性,賈宇航總結,云測數據針對客戶“可復用的只有經驗,但絕不包括數據。 ”對此,云測數據建立了一套數據隔離機制: 可以將數據封閉在標注平臺之內,全程采取專業化設備,以保證數據的采集、標注者只有數據的操作權,但是沒有拷貝、轉移的權利。
而針對場景化,云測數據目前在華東、華北、華南都設有數據交付中心和數據采集基地,可以滿足方言采集,特定目標采集等定制化客戶需求。

最后是精細化,據賈宇航表示,在數據采集環節,云測數據可以通過定制化場景搭建、專業人員實戰來滿足用戶特定需求; 而在數據標注環節,則會通過對員工培訓以及專門開發例如法令紋標注等專業化工具,以使得框選、標注的精度進一步提升。
而隨著場景化、細分化的不斷發展,對客戶進行專家式服務也成了當前行業發展的一大特色。
賈宇航向我們講述了一個案例,曾經有一家自動駕駛企業前來云測數據,表示想要針對自動駕駛場景,對激光雷達以及攝像頭數據進行采集標注。 客戶要求將攝像頭拍到的車輛,在激光雷達的捕捉的數據中全部標記出來。
但實際上,對于激光雷達捕捉到的數據中,10個點以下的內容,實際上在標注的時候可以直接忽略,否則反而會影響最終算法的識別精度。 這也就是專業化的數據標注團隊,對于客戶需求的進一步增益。

我們不難發現,作為AI的基石,AI數據服務的發展其實也正從一個獨特的角度,對AI的發展形成側寫。
從云測數據的角度來看,賈宇航發現當前的AI發展出現了三大特征: 細分化、多模態以及專業化,相應的,對于AI數據服務行業也形成了一定的影響與方向指引。

首先是細分化,當前AI已經進入技術落地階段,行業發展的主力已經由此前的技術流AI專家主導變成了由行業專家與技術流AI專家共同合作完成技術落地。 他們一方面擁有著豐富的細分領域行業經驗,另一方面又具備著深厚的技術研發實力,兩相結合將AI從象牙塔帶進了安防、金融、家居、交通等各大行業。
進一步影響到數據服務行業,賈宇航發現,在進行數據標注時,通常有駕駛經驗的工作人員在標注自動駕駛的時候也會有很好的工作效率。 而未來,在數據標注行業,玩家們也將隨著AI行業而一同進入定位與細分市場追逐階段。 以云測數據為例,目前,他們集中于智能安防、智能駕駛、智慧金融、智慧家居,并在這幾個領域中建立了較高的行業壁壘。
其 次是多模態,所謂多模態,即是對多維時間、空間、環境數據的感知與融合。 比如當前的自動駕駛需要雷達+攝像頭才能跑的更穩,安防行業需要攝像頭+雷達紅外RFID才能感知的更精準、更真實。 相應的,在數據服務的時候,企業也要跟上客戶需求,掌握好對多維傳感器融合的數據采集與標注。
最后則是專業化,盡管當前AI技術已經進入落地階段,但是頭部AI企業相較傳統行業的AI落地,在技術上會有前沿性的領跑。 而這些算法企業的一些先進技術研究也很有可能成為未來數據服務行業的一大發展方向,相應的數據服務企業也要有前瞻性,才能在行業競爭中建立長期的壁壘。

從貴陽、河南農村走向北京城里,理念更先進、技術更硬核、服務更專業的AI數據服務企業正將數據采集與標注帶入精細化運營時代。
一方面,AI落地,讓技術脫離實驗室刷榜走向實際場景,也讓數據服務行業從幕后走到臺前,成為這一過程之中最隱秘的見證者。
另一方面,5G+AI+IoT時代來臨,為市場帶來新的爆發機遇,臺前是百花齊放的AI產品,背后則是默默無聞的數據服務產業,正是他們托起了AI發展的基石。
在這片藍海市場中,未來機遇廣闊,但是淘汰也在持續進行,可以肯定的是專業化、場景化、定制化將成為行業趨勢。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司