长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

這一天還是來了:鑒黃人工智能或?qū)⑷〈斯よb黃師

澎湃新聞見習(xí)記者 徐路易
2018-08-19 11:40
來源:澎湃新聞
? 科學(xué)湃 >
字號

又一薪水高、“福利”好的職業(yè)或要被人工智能(AI)替代了。

近日,阿里巴巴集團(tuán)(下稱“阿里”)安全部在接受澎湃新聞(www.usamodel.cn)采訪時介紹了AI鑒黃的有關(guān)工作:當(dāng)用戶輸入一張圖片,AI將返回一個0-100之間的分值。這個分值非線性地標(biāo)示了圖片含色情內(nèi)容的概率。對于互聯(lián)網(wǎng)場景模型,得分99及以上的圖片幾乎可以肯定是色情圖,無需人工復(fù)審;得分50-99的需要人工審核;得分50以下的認(rèn)為是正常圖。

隨著AI鑒黃技術(shù)的發(fā)展,人工鑒黃師逐漸從鑒黃行業(yè)里被解放出來。阿里安全部高級算法專家威視向澎湃新聞介紹,假設(shè)一天要審核4億張圖片,單純由人工來審,如果一人一天審1萬張,就需要4萬人。而經(jīng)由AI鑒黃后需要交由人工審核的量大約只需20萬張,這樣只需要20人,大大節(jié)省了人力。

不僅僅在識圖領(lǐng)域,威視告訴澎湃新聞,AI鑒黃還覆蓋到了語音、視頻等多媒體領(lǐng)域,目前已經(jīng)可以識別中文、英文、日文、俄文等語言,還可以識別中國多省份方言,無語義的呻吟聲也能識別。據(jù)悉,阿里將在8月21日舉辦的網(wǎng)絡(luò)安全生態(tài)峰會上,集中展示這些技術(shù)。

鑒黃AI是怎樣煉成的?

阿里的鑒黃AI做的色情圖片檢測,從原理上來說,就是一個典型的圖像分類問題。當(dāng)前的解決方案是標(biāo)注樣本后,使用深度學(xué)習(xí)技術(shù)訓(xùn)練一個人工神經(jīng)網(wǎng)絡(luò)。具體步驟包括明確分類標(biāo)準(zhǔn)→收集樣本→樣本打標(biāo)→模型訓(xùn)練,四個步驟。其中前三個步驟主要由人工完成。

這四個步驟聽起來似乎是最后一步的技術(shù)難度最高,實(shí)際上阿里的相關(guān)人士向澎湃新聞透露,花時間最久的是第一步。

“雖然實(shí)打?qū)嵉谋热纭饵c(diǎn)不露點(diǎn)’之類的色情,還有比較明確的判斷標(biāo)準(zhǔn),”威視表示,“對于低俗和性感類,爭議就比較多,不同的人有不同的認(rèn)識?!?/p>

現(xiàn)實(shí)世界是復(fù)雜的,威視舉了個例子,以兒童色情的問題為例:兒童露點(diǎn)算不算色情?有人會說:男孩不算,女孩算。又有人質(zhì)疑:如果男孩年齡較大呢?如果是發(fā)育較早的孩子呢?于是又又有人說,十二三歲的男孩子露點(diǎn)算色情。那么,十一歲的呢?或者,如何從圖片中判斷孩子年齡到底有多大呢?

威視告訴澎湃新聞,雖然明確分類標(biāo)準(zhǔn)是設(shè)計(jì)步驟時的第一步,但在后續(xù)打標(biāo)過程中,遇到實(shí)際的問題還要再對標(biāo)準(zhǔn)進(jìn)行不斷的修正和增補(bǔ)。

被鑒黃AI誤認(rèn)為是色情的圖片

在收集樣本的過程中,團(tuán)隊(duì)“集思廣益”,瀏覽了近2000家網(wǎng)站,下載了超過6000萬張疑似色情圖片,實(shí)際去重后約2300萬張圖片,并實(shí)際標(biāo)注了超過1300萬張圖片。這1300多萬張圖片成為模擬訓(xùn)練的原始數(shù)據(jù)庫,因此這一浩大的工程,被技術(shù)人員認(rèn)為是鑒黃引擎成功最重要的基石。

樣本打標(biāo)過程依然主要由人工完成對2000萬張圖片的打標(biāo)。威視介紹,他們做了一個打標(biāo)工具,并建立了質(zhì)量控制體系。打標(biāo)前對所有參加標(biāo)注的人員先進(jìn)行培訓(xùn),學(xué)習(xí)打標(biāo)標(biāo)準(zhǔn),做練習(xí)題考試,考試通過之后才能上崗。標(biāo)中通過事先已有答案的校驗(yàn)題,或多人對同一對象打標(biāo)的方式,進(jìn)行標(biāo)中控制。標(biāo)后的控制,就是通過模型判斷,找出可疑部分再進(jìn)行人工標(biāo)注。

威視表示,之所以嚴(yán)格把握樣本打標(biāo)的過程,是因?yàn)樯疃葘W(xué)習(xí),對高質(zhì)量的標(biāo)注數(shù)據(jù)是有很高的要求。數(shù)據(jù)標(biāo)志質(zhì)量越高,最后模型的精度就會越高。

于是,由人類經(jīng)過千挑萬選、做題考試后建立起來的高質(zhì)量“色情圖片”數(shù)據(jù)庫,最后交由模型訓(xùn)練。威視表示,GPU機(jī)器單機(jī)單卡的情況下訓(xùn)練時間要近一個月。后來阿里團(tuán)隊(duì)更換了網(wǎng)絡(luò)結(jié)構(gòu)并實(shí)現(xiàn)了多機(jī)多卡訓(xùn)練,將千萬級別樣本的訓(xùn)練時間控制在一周左右。

“AI最好的應(yīng)用模式依然是人+機(jī)”

那么,高效和低成本的AI鑒黃,是否會完全替代人工鑒黃師?

對此,阿里安全部產(chǎn)品專家念夏向澎湃新聞表示,目前AI鑒黃最好的應(yīng)用模式仍然是人工+機(jī)器。不管是前期設(shè)計(jì)模型的標(biāo)準(zhǔn)和實(shí)際打標(biāo),還是后期人工復(fù)核,人的參與都是不可或缺的。

2015年7月的“北京三里屯優(yōu)衣庫事件”,一段時長1分鐘的試衣間不雅視頻流出,并2個小時內(nèi)在各大網(wǎng)絡(luò)平臺上迅速完成了過億的轉(zhuǎn)發(fā)量。但目前只有人的頭腦擁有足夠的“意識”判斷這些單獨(dú)的突發(fā)性事件,是否屬于“違規(guī)”。

“已知的、有清晰標(biāo)準(zhǔn)定義的風(fēng)險,AI都已經(jīng)能解決了?!蹦钕谋硎?,真正的難點(diǎn)是惡意的突發(fā)事件,爆發(fā)了就是爆發(fā)了,這種情況下,由于之前對該事件或場景缺乏標(biāo)準(zhǔn)的定義,當(dāng)時要直接給AI及時去處理,是不可能的?!?/p>

另一種類型就是非常模棱兩可的場景,即AI打分在50-99分之間的內(nèi)容。念夏表示,帶有主觀個人意識或者群體意識的部分,就是需要人工審核的核心部分。

此外,包括特定的體育運(yùn)動以及國際標(biāo)準(zhǔn)差異等問題,前期模型調(diào)整和后期復(fù)核標(biāo)準(zhǔn)變化,也需要人工審核的出馬。

威視表示,目前像包括相撲、摔跤、藝術(shù)體操甚至游泳等門類的運(yùn)動,由于穿著較為特殊,一般把這類多媒體作品定性為性感類,經(jīng)由人工復(fù)核,終極目標(biāo)還是希望能讓AI直接分辨出圖片上的人是在參加運(yùn)動比賽。

被鑒黃AI誤認(rèn)為是色情的圖片

從國際上來看,雖有通用的鑒黃標(biāo)準(zhǔn),但也會有與國內(nèi)標(biāo)準(zhǔn)大相徑庭的地方。念夏向澎湃新聞舉了個例子:“國內(nèi)如果直播給小寶寶洗澡,其實(shí)沒什么事,大家覺得很可愛。但在國外是絕對不行的,而且屬于嚴(yán)重違規(guī)?!?/p>

阿里的AI除了用于鑒黃,念夏表示利用這個原理,還能訓(xùn)練AI做類似編審的工作,比如選取視頻封面、鑒定重復(fù)視頻等?!安粌H是做合規(guī)方面的事情,我們希望利用AI去做真正的生產(chǎn)提效,用技術(shù)解決更多社會問題。”

    責(zé)任編輯:李躍群
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            缅甸百家乐官网视频| 百家乐群柏拉图软件| 百家乐官网图表分析| 东方太阳城三期琴湖湾| 百家乐视频台球游戏| 网上百家乐官网赌博出| 百家乐平注法口诀技巧| 做生意如何风水| 百家乐官网怎么投注| 大发888娱乐城注册lm0| 百家乐庄闲最佳打法| 百家乐官网sxcbd| 易胜博百家乐官网下载| 大发888网页版免费| 百家乐游戏怎么刷钱| 英皇百家乐官网的玩法技巧和规则 | 百家乐官网平注常赢规则| 百家乐官网出千的方法| 百家乐官网de概率| 澳门百家乐赌场娱乐网规则| 武汉百家乐庄闲和| 太阳城百家乐出千技术| 星期8百家乐官网娱乐城| 百家乐官网赢的方法| 最新博彩论坛| 大发888娱乐城dafa888dafa8| 百家乐牌九| 百家乐波音平台开户导航| 百家乐官网b28博你发v| 海王星百家乐官网的玩法技巧和规则| 百家乐官网开户优惠多的平台是哪家| 百家乐官网游戏机高手| 百家乐官网辅助分析软件| 百家乐官网娱乐城注册| 澳门百家乐官网网址多少| 太阳城百家乐官网出千技术| 百家乐官网群sun811| 百家乐官网扫瞄光纤洗牌机扑克洗牌机扑克洗牌机 | 星期8百家乐官网娱乐城| 58百家乐官网的玩法技巧和规则| 百家乐官网的巧门|