下載客戶端

登錄

新一代算法“鑒黃師”誕生，中科院計算所研究生一作

2020-11-25 11:43

來源：澎湃新聞·澎湃號·湃客

賈浩楠發自凹非寺

量子位報道 | 公眾號 QbitAI

不知道那位不愿意透露姓名的唐馬儒先生，現在看太陽還是不是綠色的？

第一代網絡鑒黃師，犧牲小我，造福了千萬家。

撇開玩笑不談，維持健康良好的網絡環境，只靠人工鑒黃，根本不現實。

這也是近兩年AI在網絡安全應用的熱門方向。

今年的AI頂會NeurIPS 2020，阿里安全團隊一篇名為《啟發式領域適應》（Heuristic Domain Adaptation）的論文入選。

這項研究的重要之處，在于將遷移學習運用在網絡涉黃信息的鑒別，實現了同一模型在不同場景下的低成本訓練部署。

AI鑒黃師有了通用性，唐馬儒們，終于解放了。

從電商到直播：一套架構應對全場景

AI鑒黃不是新鮮事，2018年，微軟、谷歌、亞馬遜等等巨頭還搞過算法鑒黃大賽，谷歌摘得桂冠。

但是，以往的鑒黃算法，只針對特定場景。

即使同樣針對圖像的算法，在面對不同的應用案例，比如社交媒體或電商時，也需要重新收集數據進行訓練。

忽略某一特定場景下有針對性的訓練，直接套用其他現成算法，結果是十分糟糕的。

風險或違規樣本收集成本較高，業務存在對抗和變異等特點，使得深度學習模型無以為繼，因此研究探索基于小樣本和增量學習技術的模型訓練與迭代，變得非常重要。

現實的情況是，大部分算法面臨著少量訓練數據和廣泛應用場景的矛盾。

阿里安全的解決方案，是將經典的“啟發式搜索”思想，融入到領域適應問題中，來解決在數據不充分情況下的模型訓練問題，實現將人工智能從現有數據學習到的知識遷移到未知場景中。

比如，在鑒黃場景下，目前該研究成果技術可直接從電商場景遷移至直播場景中應用。

與電商場景不同，直播場景不僅有主播等人物，還常常有桌椅家具等繁雜的物品背景，這些差異會導致電商場景下的搜索識別技術遷移應用效果不佳。

通過將“啟發式搜索”思想融入，研究團隊構建了啟發式領域適用的基礎架構，并通過相似性、獨立性、終止點等角度進行約束，使算法模型在相同計算量下，達到最佳效果。

針對復雜任務和場景，遷移學習的魯棒性與可擴展性主要體現為如何更好地提取領域不變特征。

目前，這項成果主要用于內容安全識別，如直播或動漫人物及白描場景下是否涉黃等。

但阿里安全資深算法專家華棠認為，遷移學習的特性，使得這套原理框架可以移植到其他諸多領域，比如在線教育、文娛行業等等。

核心：HDAN

在以往識別分類任務中常采用的經典DAN以及DANN方法中，“直接對齊”會在高維空間產生“障礙物”，從而影響最終算法收斂效果；

HDAN（啟發式領域適應網絡），采取的技術方案借鑒于經典的啟發式搜索，強調在識別具體物體的過程中，額外對環境場景等無關因素進行建模。

在相對固定的環境與場景中，環境特征H(x)并不難以建模。估計的環境信息實際上相當于啟發式信息，用來指導用于商品識別的特征G(x)。

同時估計的環境信息數量還要加以控制，避免過大，影響物品類別信息的建模。

在具體的實現過程中，相似性方面，HDAN強調環境和商品特征應該有區分，但同時也關注容易混淆的特征。

所以相似性分析最終得到的是初始時相似度的約束，而不是全部訓練過程的約束。

在具體的三個領域適應場景中：無監督領域適應（UDA），半監督領域適應（SSDA）和多源域領域適應（MSDA），HDAN都取得了SOTA的結果。

據阿里安全方面介紹，目前這項算法現在已經應用到了阿里云的綠網安全產品中。

在9月底舉行的2020年人工智能開發者大會（AIIA2020），綠網內容識別技術通過中國信息通信研究院性能評估測試，還獲得了官方權威證書。

作者介紹

本文的一作，崔書豪，中科院計算所研三在讀，指導老師是王樹徽。

他的主要研究方向是深度領域適應學習與開放域學習技術。

崔書豪目前在阿里安全團隊實習。

6個月前，量子位介紹過崔書豪同學一作入選CVPR 2020的成果。

今年崔書豪以第一作者向CVPR 2020提交了兩篇論文，另一篇是Gradually Vanishing Bridge for Adversarial Domain Adaptation，也被接收。

論文地址：

https://papers.nips.cc/paper/2020/file/555d6702c950ecb729a966504af0a635-Paper.pdf

— 完 —

本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容，未經賬號授權，禁止隨意轉載。

原標題：《NeurIPS 2020中國入選論文：新一代算法“鑒黃師”誕生，中科院計算所研究生一作》

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#鑒黃師

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業務經營許可證：滬B2-2017116

? 2014-2025 上海東方報業有限公司

反饋

长兴郴障科技有限公司

新一代算法“鑒黃師”誕生，中科院計算所研究生一作

掃碼下載澎湃新聞客戶端