- +1
騰訊把12億用戶,都變成了免費(fèi)的“標(biāo)注民工”
原創(chuàng) 數(shù)字生命卡茲克 數(shù)字生命卡茲克
你有沒有想過(guò),當(dāng)你在網(wǎng)上進(jìn)行簡(jiǎn)單的驗(yàn)證碼操作時(shí),其實(shí)你已經(jīng)無(wú)意間成為了一名“標(biāo)注民工”?
昨天晚上,我在登錄QQ郵箱和LOL官網(wǎng)的時(shí)候。
發(fā)現(xiàn)騰訊的驗(yàn)證碼變了。
不再是之前的驗(yàn)證碼了,而是變成了一段Prompt加六張AI生成的圖。

右下角赫然寫著:
圖片由混元AI生成。
騰訊,終于把用驗(yàn)證碼做標(biāo)注的手,伸向了他那12億的用戶。
拿驗(yàn)證碼當(dāng)標(biāo)注系統(tǒng),讓用戶免費(fèi)標(biāo)注,其實(shí)在遠(yuǎn)古時(shí)代,就已經(jīng)不是什么新鮮事了,但是用生成式AI來(lái)跟驗(yàn)證碼做結(jié)合,這確實(shí)還是我,所看的頭一回。
先說(shuō)說(shuō)驗(yàn)證碼這個(gè)東西。
這玩意從最開始發(fā)明起,其實(shí)只有一個(gè)目的,就是為了區(qū)分機(jī)器和人。
簡(jiǎn)稱“CAPTCHA”,全稱就賊長(zhǎng)了,“Completely Automated Public Turing Test to Tell Computers and Humans Apart”
翻譯過(guò)來(lái)是,“全自動(dòng)區(qū)分計(jì)算機(jī)和人類的圖靈測(cè)試”。
你看看,圖靈測(cè)試。
剛開始,有個(gè)斯坦福公益驗(yàn)證碼系統(tǒng),reCAPTCHA。
它最成名的項(xiàng)目,就是用驗(yàn)證碼來(lái)數(shù)字化海量的書籍和舊報(bào)紙。那時(shí)候的Ocr真的不咋地,而且很多年前的書和報(bào)紙那糊的真的差強(qiáng)人意。
當(dāng)時(shí),reCAPTCHA系統(tǒng)會(huì)向用戶在驗(yàn)證碼上,展示兩組扭曲的單詞,其中前面的一組是計(jì)算機(jī)已經(jīng)識(shí)別的,另一個(gè)是計(jì)算機(jī)難以識(shí)別的。

如果用戶正確輸入前半部分,那么 reCAPTCHA就會(huì)假設(shè)用戶輸入的后半部分也是正確的,然后把錄入結(jié)果返回至reCAPTCHA的項(xiàng)目主機(jī)。
結(jié)果返回主機(jī)后,主機(jī)還會(huì)把這個(gè)結(jié)果再派發(fā)給多個(gè)用戶進(jìn)行交叉驗(yàn)證,以確保沒有不小心或故意輸錯(cuò)單詞的情況。
他們用這個(gè)系統(tǒng),在十幾年里,數(shù)字化了幾千萬(wàn)的書籍和報(bào)紙。
本來(lái)一切都挺美好的,然后,Google下場(chǎng)了,他們把reCAPTCHA給收了。
沒過(guò)多久,就讓用戶開始識(shí)別,google街景中,那些難以識(shí)別的門牌號(hào)了。

這其實(shí),就是明晃晃的讓你當(dāng)標(biāo)注民工,無(wú)償來(lái)給google標(biāo)注訓(xùn)模型了。
google那時(shí)候幾億用戶,每天驗(yàn)證碼會(huì)被調(diào)用上千萬(wàn)次。
這大概就好像,讓幾百萬(wàn)個(gè)人每人為給你干5秒鐘活兒,然后一分錢都不給一樣,你說(shuō)這是不是已經(jīng),把白嫖玩到極致了。
直到后面,離譜的東西越來(lái)越多,你要標(biāo)注的東西,也越來(lái)越多。
比如這些奇奇怪怪非人視角讓你選一個(gè)bus的照片。

當(dāng)然最離譜最好玩的,得數(shù)15年的12306,當(dāng)時(shí)開腳本搶票的太多,12306的流量壓力實(shí)在太大,被逼的開啟了神跡級(jí)的驗(yàn)證碼,據(jù)說(shuō)人類首次正確率僅為8%,得錯(cuò)3次以上的人占比有65%。
這種逆天驗(yàn)證碼的題目是這樣的。

劉慈欣我不敢打包票,但是范偉我是全認(rèn)出來(lái)了。
時(shí)間走走停停,一眨眼,來(lái)到了2024年。
為了自己家的混元大模型,騰訊也把手,伸向了驗(yàn)證碼。

讓我們開始,來(lái)做AI繪圖大模型的標(biāo)注了。
這部分的標(biāo)注,其實(shí)不是啥圖片美學(xué)質(zhì)量的標(biāo)注,而是對(duì)于圖片理解和映射的標(biāo)注。
通俗地講,就是語(yǔ)義理解。
現(xiàn)在做的,還是最基礎(chǔ)最簡(jiǎn)單的分類,我們標(biāo)起來(lái),還是挺輕松的。畢竟里面都知道,左上角是鴨子,中間是老虎,左下角是蜜蜂,右下角是賽車。
而那兩張白楊樹林,其實(shí),你選任意一個(gè),或者選兩個(gè),都能過(guò)。
比如我這個(gè)圖:一簇在懸掛花盆在生長(zhǎng)的多肉。

其實(shí)你會(huì)看到有兩張都跟多肉有關(guān),而根據(jù)定語(yǔ),一簇,更符合左上角第一張圖,右上角那個(gè)其實(shí)不是一簇是一堆,但是我選了他,依然能過(guò)。
而你想把兩個(gè)都選,你也都能過(guò)。
所以這個(gè)標(biāo)注之心啊,一點(diǎn)都不藏著掖著。
但是確實(shí)這個(gè)做法很有用,比如還是這句Prompt,真正核心難點(diǎn)是一簇。
用這種方式,對(duì)整體的語(yǔ)義理解,確實(shí)有非常大的幫助。
而且現(xiàn)在明顯還是初期,給的prompt和圖,都非常的簡(jiǎn)單,標(biāo)注的難度也不高,甚至一些大廠的標(biāo)注模型直接機(jī)標(biāo)可能都應(yīng)付的過(guò)來(lái)。
但是如果下一次,是“一只在清朝宮殿里生長(zhǎng)的杜鵑花”呢?
一只、清朝宮殿、杜鵑花。難度直接拉滿。
甚至另外幾個(gè)選項(xiàng)給你的也不是差異這么大的動(dòng)物汽車啥的,給你的都是菊花、杜鵑花、喇叭花、玫瑰花,來(lái)吧你就選吧,加油啊標(biāo)注民工。
要知道,標(biāo)注真的很貴的,之前跟國(guó)內(nèi)一家做AI繪圖大模型的公司聊過(guò),才知道他們標(biāo)注分為機(jī)標(biāo)和人標(biāo),而人標(biāo)的成本,大概是數(shù)據(jù)量的十分之一。
也就是你拿出去3000萬(wàn)的數(shù)據(jù),人工標(biāo)一次,就得300萬(wàn)RMB干出去。
而騰訊12億用戶,每天驗(yàn)證碼起碼也是千萬(wàn)的量級(jí),這標(biāo)注費(fèi)用,你可以算算這省了多少錢吧。
所以說(shuō),大廠在如今還在大數(shù)據(jù)的時(shí)代,優(yōu)勢(shì)是真的大。
不過(guò)這種標(biāo)注,目前來(lái)看還是只能解決語(yǔ)義理解的標(biāo)注,但是能把這個(gè)解決也已經(jīng)很牛了,雖然美學(xué)一般,但是語(yǔ)義理解能達(dá)到極強(qiáng),這就是妥妥的國(guó)內(nèi)版Dalle3。
而Dalle3的短板大家肯定也清楚,實(shí)在太丑了。
而要標(biāo)美學(xué)表現(xiàn),難度其實(shí)就大很多,真的得找懂設(shè)計(jì)、懂美學(xué)的人來(lái)標(biāo)注。
Midjourney當(dāng)年其實(shí)就是吃了這波紅利。
第一波獲得用戶,而且獲得的還是一大波的有美學(xué)背景的專業(yè)用戶,然后每次你生圖的時(shí)候給你生成4張圖拼一塊的一張整圖,你還必須選一張你覺得最好的進(jìn)行提取或優(yōu)化。

這就是一種強(qiáng)行的數(shù)據(jù)標(biāo)注。
所以Midjourney在如今的美學(xué)表現(xiàn)上一騎絕塵,是因?yàn)樗麄冊(cè)诿缹W(xué)的標(biāo)注上,做的太好了,而別的家想在這塊趕上,基本不可能,因?yàn)樽罡哔|(zhì)量的那波用戶,基本已經(jīng)全在Midjourney那了。
而騰訊未來(lái)想做這件事,其實(shí)在我看來(lái),還真是有可能的。
因?yàn)槟闫鋵?shí)看Midjourney的路徑,核心點(diǎn)就一個(gè):海量的專業(yè)用戶。
騰訊缺專業(yè)用戶嗎,怎么可能會(huì)缺,12億用戶捏在手上,用戶畫像做的那么齊全,我想把有設(shè)計(jì)師背景的用戶挑出來(lái),難嗎?一點(diǎn)都不難。
我想給挑出來(lái)的這些設(shè)計(jì)師背景的用戶推送美學(xué)標(biāo)注的驗(yàn)證碼,難嗎?也不難。
所以啊,現(xiàn)在在我看來(lái),騰訊的驗(yàn)證碼標(biāo)注,才剛剛向前邁了半步,后面的模型空間,還很大。
唯一問(wèn)題就是,騰訊內(nèi)部有點(diǎn)封閉,用戶畫像數(shù)據(jù)PCG做QQ的那邊肯定有,但是混元跟PCG不是一個(gè)事業(yè)群,也不知道能不能拿得到。
能拿到的話,那就是王炸。
但是不管怎樣。
你我都已經(jīng),身在其中了。
10年前,就已經(jīng)是了。
原標(biāo)題:《騰訊把12億用戶,都變成了免費(fèi)的"標(biāo)注民工"。》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 澎湃新聞微博
- 澎湃新聞公眾號(hào)
- 澎湃新聞抖音號(hào)
- IP SHANGHAI
- SIXTH TONE
- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司