- +1
新一代算法“鑒黃師”誕生,中科院計算所研究生一作
賈浩楠 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
不知道那位不愿意透露姓名的唐馬儒先生,現在看太陽還是不是綠色的?

撇開玩笑不談,維持健康良好的網絡環境,只靠人工鑒黃,根本不現實。
這也是近兩年AI在網絡安全應用的熱門方向。
今年的AI頂會NeurIPS 2020,阿里安全團隊一篇名為《啟發式領域適應》(Heuristic Domain Adaptation)的論文入選。
這項研究的重要之處,在于將遷移學習運用在網絡涉黃信息的鑒別,實現了同一模型在不同場景下的低成本訓練部署。
AI鑒黃師有了通用性,唐馬儒們,終于解放了。
從電商到直播:一套架構應對全場景
AI鑒黃不是新鮮事,2018年,微軟、谷歌、亞馬遜等等巨頭還搞過算法鑒黃大賽,谷歌摘得桂冠。
但是,以往的鑒黃算法,只針對特定場景。
即使同樣針對圖像的算法,在面對不同的應用案例,比如社交媒體或電商時,也需要重新收集數據進行訓練。

風險或違規樣本收集成本較高,業務存在對抗和變異等特點,使得深度學習模型無以為繼,因此研究探索基于小樣本和增量學習技術的模型訓練與迭代,變得非常重要。

阿里安全的解決方案,是將經典的“啟發式搜索”思想,融入到領域適應問題中,來解決在數據不充分情況下的模型訓練問題,實現將人工智能從現有數據學習到的知識遷移到未知場景中。
比如,在鑒黃場景下,目前該研究成果技術可直接從電商場景遷移至直播場景中應用。
與電商場景不同,直播場景不僅有主播等人物,還常常有桌椅家具等繁雜的物品背景,這些差異會導致電商場景下的搜索識別技術遷移應用效果不佳。

針對復雜任務和場景,遷移學習的魯棒性與可擴展性主要體現為如何更好地提取領域不變特征。
目前,這項成果主要用于內容安全識別,如直播或動漫人物及白描場景下是否涉黃等。
但阿里安全資深算法專家華棠認為,遷移學習的特性,使得這套原理框架可以移植到其他諸多領域,比如在線教育、文娛行業等等。
核心:HDAN
在以往識別分類任務中常采用的經典DAN以及DANN方法中,“直接對齊”會在高維空間產生“障礙物”,從而影響最終算法收斂效果;
HDAN(啟發式領域適應網絡),采取的技術方案借鑒于經典的啟發式搜索,強調在識別具體物體的過程中,額外對環境場景等無關因素進行建模。


在具體的實現過程中,相似性方面,HDAN強調環境和商品特征應該有區分,但同時也關注容易混淆的特征。

在具體的三個領域適應場景中:無監督領域適應(UDA),半監督領域適應(SSDA)和多源域領域適應(MSDA),HDAN都取得了SOTA的結果。

在9月底舉行的2020年人工智能開發者大會(AIIA2020),綠網內容識別技術通過中國信息通信研究院性能評估測試,還獲得了官方權威證書。
作者介紹
本文的一作,崔書豪,中科院計算所研三在讀,指導老師是王樹徽。
他的主要研究方向是深度領域適應學習與開放域學習技術。
崔書豪目前在阿里安全團隊實習。

今年崔書豪以第一作者向CVPR 2020提交了兩篇論文,另一篇是Gradually Vanishing Bridge for Adversarial Domain Adaptation,也被接收。
論文地址:
https://papers.nips.cc/paper/2020/file/555d6702c950ecb729a966504af0a635-Paper.pdf
— 完 —
本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。
原標題:《NeurIPS 2020中國入選論文:新一代算法“鑒黃師”誕生,中科院計算所研究生一作》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司