- +1
城市與社會 | 人工智能數據標注,標注的是誰的未來?
人工智能時代,數據標注已經成為一個新興產業,其上下游相關業務涉及機器學習、虹膜識別、人臉識別、無人駕駛等技術。然而數據標注真正的核心是大量人力投入的標框工作。
目前關于數據標注行業的研究還較為缺乏,更多的是媒體調查報告對該行業的描述。比如,諸多媒體都將該產業定義為勞動密集型,也通常將它與富士康進行類比,稱其為“人工智能領域的富士康”。
作為長期觀察中國互聯網產業發展的一員,我對這個“人工智能領域的富士康”中的從業者群體產生了極大的興趣:他們究竟是誰?他們真的是人工智能時代的流水線工人嗎?

在對貴州的“未來”數據標注公司進行為期一周的前期田野調查過程中,我發現,未來公司的從業群體畫像與已有媒體報道有所不同:未來公司的高級管理層以未來職業學院的老師為主;中級管理層以該校畢業的學生為主,其中少部分是來自貴州其他院校的本科畢業生;公司里的標注員基本上是來自貴州二十幾個院校“產教融合”的實習生以及部分社招人員,其中以未來學院“產教融合”的實習生為主。
標注員一般分為四類:全職的中層管理者,頂崗的實習生,跟崗的實習生和半工半讀的學生。頂崗實習生大多是因應教育部的產教融合模式而產生的為期一年的大三實習生。跟崗的多為僅三個月實習的大二學生。半工半讀的實習生多為未來學院的少數民族貧困生。
據未來公司的一個項目組長小劉介紹,一條數據標注一般由數據標注員、初審員、終審員三個人共同完成。系統會隨機派發詞條給數據標注員,標注員完成標框以后,會由對應的初審員審核,再交由終審員審核,最后提交系統。這三者的比例是5:1:1或6:1:1。
也就是說,一個終審員對應一個初審員和五到六個數據標注員。三者之間存在連帶關系:初審員和終審員的薪資按照他們手下標注員平均工資來計算;如果其中一個詞條連續三次出現錯誤的話,系統會自動回收詞條,負責的組長也會找小團隊談話。
數據標注實習生的身份認同:90后?少數民族?
在去往貴州的路上,我不可避免地充滿了許多關于少數民族的想象,甚至一度將它作為田野觀察中的一個重要標簽。有趣的是,盡管未來公司過半的實習生是少數民族學生,在為期一周的前期觀察中,我居然有一種未能抽離日常教學工作的觀感:似乎我面對的仍是上海的大學課堂上的那班95后學生。不管是對于工作的認知與自我定位,還是對于未來的想象,這些少數民族的95后學生自始至終將“90后”的身份認同優先于民族身份認同。

未來公司的另一個項目組長小回告訴我,“現在80后是社會頂梁柱,90后賺錢資歷不夠,有點心高氣傲的,就業和擇業選擇性比較強,所以比較尷尬……其實我們現在90后除了錢還是錢……情懷是什么東西就不知道了。你看以現在的物價,結婚就是二三十萬,我要工作多久才能賺到20萬?……不管你是哪個民族,目前我們最重要的目標就是賺錢。”
“為自己干”是我在訪談過程中聽過最多的未來公司的文化。比如公司的標注員小布就不斷強調公司并不要求實習生加班,大家都是“自愿”加班:有些女孩子為了拿到一個月一萬多的計件工資,甚至會選擇每周工作七天,每天工作11個小時。
批判學研究往往會將這類敘事方式看作典型的“自我剝削”(self-exploitation)的一種外在形式——公司或管理者通過授予文化工作者一定程度的創作自由和空間,諸如掌握自己的工作時間、地點和形式等,并對員工進行“自我管理”的培訓,用以控制他們。公司和管理者往往通過這種方式將風險和責任下放到個人身上。
此類方式見諸于社會各個領域,上至美國社會典型的“個人成功論”,下至互聯網公司的靈活上班制度,同樣地,也得到了這些90后少數民族青年的認同——類似于“談話”和“為自己干”的心理疏導與情感交流成為了管理這些學生的主要方式。
和我在上海高校面對的95后大學生一致,這些90后的少數民族青年也對創業充滿了熱情。雖然創業的內容與上海的群體有些許不同,比如因應貴州當地特色,更多青年的創業夢想集中于農村淘寶、電子商務層面,希望通過將當地農產品互聯網化來實現助農脫貧。
但是,這些青年對于通過創業實現自由的渴望與大城市中的90后創業青年們并無不同。與上述“為自己干”這類虛幻的“自我控制”類似,這種對通過創業來掌控自我命運的自由的追尋使得這些青年更為鞏固了90后的身份認同。
關于民族身份認同,小布表示,他們這一代的少數民族往往已經不會說本族語言,對本族的文化儀式也沒有太多參與感。對于這些青年來說,區分他們的已不是民族身份,而是教育程度。
“如果沒有受過比較好一點的教育的話,他可能會比較死板……接觸新東西都感覺有點恐懼……你受過這些教育的話,和他(沒有受過高等教育的同民族小伙伴)就交流不了多少。交流的話,他就講那幾樣……你在公司里面發現,小伙伴之間還是有很多可以交流的。”
當身為布依族的小布用堅定的眼神告訴我“教育真的能改變人生”的時候,我決定臨時改變行程,在之后的幾天走訪少數民族村寨去實地了解這些青年所處的文化氛圍。正是因為受教育程度的分化,使得這些90后少數民族青年,相較于他們的長輩來說,更歡迎這些和人工智能相關的企業入駐當地,也更愿意通過這份工作標簽他們的 “90后青年”這一身份。
“我在為人工智能添磚加瓦”
大部分現有媒體報道將數據標注工作類比于富士康工作的一大原因是認為前者的勞動過程出現了異化(alienation):勞動者即數據標注員失去對工作的控制,對工作內容和成果毫無參與感。
與之相反,我所接觸到的青年們對這份工作的認知是“人工智能工程的一個基礎建設性工作”,對自我身份的認知是“智能人工”、“人工智能背后的訓練師”。而“無人工不智能”也是這群青年常掛在嘴邊的一句話。盡管很多青年從事這份工作的動力之一是在當地相對優渥的報酬,但是對于自己能加入到人工智能的大潮,為未來人工智能的實現做出一份貢獻的自豪感也是他們繼續這份工作的動力。
小劉告訴我,“比如說我們做百度的工作之后,看到百度無人車在路上行駛的時候,確實會有一些自豪感。因為這個東西有我參與的一部分,能影響人類社會。”其他受訪者也表示了類似的想法。
這種參與到人工智能發展過程中的自豪感或多或少也讓這些青年將自己有意識的區分于富士康的同齡人。在他們看來,富士康更像是傳統高職院校學生們會加入的、和電子廠類似的工廠。也許這種區分感在日復一日的標框工作中顯得并不那么明顯,但是真正有所區分的,或許是這些青年言談間流露出來的對于人工智能發展的高度期許以及對自身價值的肯定。
小回說,“機器越發達,就會讓勞動力流失越嚴重……比如我們現在研究無人車,以后無人車研究成功了,就很少用人工了,但是其他項目就會發出來……需要我們的學弟學妹去處理這些數據……我覺得機器不能完全取代人。”
未來公司的一個中層管理者小天也表示,“之前我特別迷茫,覺得每天做勞動性、重復性的工作和流水線有什么區別……了解接觸多了之后就會發現其實AI它能夠實現數據初步的信息識別,能夠完成60%、70%,但還不夠精準,需要人工去校對和標注。未來,當它達到一定的高度之后,我們簡單重復性的工作肯定會被替代,同時又會產生很多新的工作崗位。”
和已有的媒體報道有所區別的是,這些從事數據標注第一線工作的青年們對于未來并不茫然,大多數人都堅信人工智能發展的未來會衍生出其他新的工種,而他們還是會有一席之地。正如小布所說,數據標注不過是一份自己正在從事的工作,“機器換人”的未來與自己換工作并不構成直接的因果關系。
留守的童年,智能的未來?
事實上,在小劉提及他作為留守兒童的經歷對他擇業的影響之前,我的研究計劃中并不涉及貴州的留守兒童這一特殊現象。當小劉提及數據標注這類與人工智能掛鉤的工作也許可以在未來改變貴州青壯年勞力常年外出打工的現狀,以此減少未來留守兒童的人數時,我決定臨時更改研究計劃,前往當地幾個少數民族村寨。
我驚訝地發現這些村寨的青壯年勞力幾乎處于缺席的狀況:三三兩兩的孩童在街頭、水庫邊、山路上玩耍,并沒有任何大人監管;十幾歲初中生年紀的苗族、布依族少年少女們大多騎著摩托車或是電瓶車載著更小的孩子在村道上快速飛馳。


在去往一個村寨的半山腰上,我遇到了放假留守的三個苗族小學生,健談的小學生告訴我,他們的苗寨目前大概還有十幾戶人家,很多孩子都被送到鎮上的親戚家,村寨現在只剩下五個小孩。平時他們寄宿在近兩百公里以外的學校里,現在放假才被接回村中給家里放羊。
在又路遇了放假在家修房子的苗族初中少年們以后,我才得知,一直以來在媒體報道中看到的“小候鳥”(暑假被接去父母打工所在地和父母團聚的留守兒童們)在貴州的這些山區中并不普遍。一個原因是在外地打工的父母經濟上無法負擔接送孩子來回并且臨時照顧孩子可能產生的誤工費等等。另一個原因則是,這些孩子們在假期往往需要留在家中幫年邁的爺爺奶奶們做家務,比如割豬草、放羊、喂豬等等。
正如小回所說,即便這些父母知道留守兒童存在很多問題,會對孩子的未來造成影響,但是他們也沒有選擇:如果留在當地,有限的收入很可能讓他們無法維持生計,甚至因為當地普遍的外出打工現狀,留家務農還會導致鄰里取笑父母沒有上進心這類輿論壓力。
從教于貴州當地最大的公立職業院校之一的洪老師反映,目前國家對當地的扶貧項目在基礎建設方面已經頗有成效,比如我一路上所見的修建完善的盤山公路和房屋整潔的村寨。
當地目前真正面臨的問題是,如何引科技企業入駐,培養相應的人才,進而實現讓當地人在當地就業。小回、小布和小天都提及,貴州在政策上成為大數據產業發展的熱土以后,類似數據標注這種和大數據、人工智能密切掛鉤的工作成為他們對于未來的期許:也許他們這一代能因為新產業的進駐與發展而留在故鄉,也許他們的下一代不會成為留守兒童。
未來也許可期?
不可否認,產教融合的模式在數據標注這個行業中還有很長的路要走,實施過程也需要更多第三方的監督。這些也將成為我們接下來的研究重點。然而,與簡單粗暴的將這些青年等同于富士康工人或是高科技時代的流水線工人不同的是,我們更應該看到他們的內部動態結構:他們對這份工作的認同感;他們從事這份工作背后的社會動態因素;他們對人工智能的認知與預期。他們清醒地意識到自己在從事一份什么樣的工作,也明白未來可期的是什么。
作為長期從事批判研究的一員,此次前期田野調查也幫我突破了長久以來的研究瓶頸:批判研究并不是單純的找問題、挖掘問題,也許我們也需要反思,關于我們能做些什么來解決這些問題。
數據標注行業、人工智能、扶貧、留守兒童等等,亟待我們解決的,更多的也許是政策落地實施過程中出現的問題,以及如何切實地解決這些落地問題。
(文中的公司、學院與人物均為化名。作者夏冰青系華東師范大學傳播學院晨暉學者。作者特別感謝為此次田野調查提供任何幫助的所有人。)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司