长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

騰訊把12億用戶,都變成了免費(fèi)的“標(biāo)注民工”

2024-08-13 17:11
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

原創(chuàng) 數(shù)字生命卡茲克 數(shù)字生命卡茲克

你有沒有想過(guò),當(dāng)你在網(wǎng)上進(jìn)行簡(jiǎn)單的驗(yàn)證碼操作時(shí),其實(shí)你已經(jīng)無(wú)意間成為了一名“標(biāo)注民工”?

昨天晚上,我在登錄QQ郵箱和LOL官網(wǎng)的時(shí)候。

發(fā)現(xiàn)騰訊的驗(yàn)證碼變了。

不再是之前的驗(yàn)證碼了,而是變成了一段Prompt加六張AI生成的圖。

右下角赫然寫著:

圖片由混元AI生成。

騰訊,終于把用驗(yàn)證碼做標(biāo)注的手,伸向了他那12億的用戶。

拿驗(yàn)證碼當(dāng)標(biāo)注系統(tǒng),讓用戶免費(fèi)標(biāo)注,其實(shí)在遠(yuǎn)古時(shí)代,就已經(jīng)不是什么新鮮事了,但是用生成式AI來(lái)跟驗(yàn)證碼做結(jié)合,這確實(shí)還是我,所看的頭一回。

先說(shuō)說(shuō)驗(yàn)證碼這個(gè)東西。

這玩意從最開始發(fā)明起,其實(shí)只有一個(gè)目的,就是為了區(qū)分機(jī)器和人。

簡(jiǎn)稱“CAPTCHA”,全稱就賊長(zhǎng)了,“Completely Automated Public Turing Test to Tell Computers and Humans Apart”

翻譯過(guò)來(lái)是,“全自動(dòng)區(qū)分計(jì)算機(jī)和人類的圖靈測(cè)試”。

你看看,圖靈測(cè)試。

剛開始,有個(gè)斯坦福公益驗(yàn)證碼系統(tǒng),reCAPTCHA。

它最成名的項(xiàng)目,就是用驗(yàn)證碼來(lái)數(shù)字化海量的書籍和舊報(bào)紙。那時(shí)候的Ocr真的不咋地,而且很多年前的書和報(bào)紙那糊的真的差強(qiáng)人意。

當(dāng)時(shí),reCAPTCHA系統(tǒng)會(huì)向用戶在驗(yàn)證碼上,展示兩組扭曲的單詞,其中前面的一組是計(jì)算機(jī)已經(jīng)識(shí)別的,另一個(gè)是計(jì)算機(jī)難以識(shí)別的。

如果用戶正確輸入前半部分,那么 reCAPTCHA就會(huì)假設(shè)用戶輸入的后半部分也是正確的,然后把錄入結(jié)果返回至reCAPTCHA的項(xiàng)目主機(jī)。

結(jié)果返回主機(jī)后,主機(jī)還會(huì)把這個(gè)結(jié)果再派發(fā)給多個(gè)用戶進(jìn)行交叉驗(yàn)證,以確保沒有不小心或故意輸錯(cuò)單詞的情況。

他們用這個(gè)系統(tǒng),在十幾年里,數(shù)字化了幾千萬(wàn)的書籍和報(bào)紙。

本來(lái)一切都挺美好的,然后,Google下場(chǎng)了,他們把reCAPTCHA給收了。

沒過(guò)多久,就讓用戶開始識(shí)別,google街景中,那些難以識(shí)別的門牌號(hào)了。

這其實(shí),就是明晃晃的讓你當(dāng)標(biāo)注民工,無(wú)償來(lái)給google標(biāo)注訓(xùn)模型了。

google那時(shí)候幾億用戶,每天驗(yàn)證碼會(huì)被調(diào)用上千萬(wàn)次。

這大概就好像,讓幾百萬(wàn)個(gè)人每人為給你干5秒鐘活兒,然后一分錢都不給一樣,你說(shuō)這是不是已經(jīng),把白嫖玩到極致了。

直到后面,離譜的東西越來(lái)越多,你要標(biāo)注的東西,也越來(lái)越多。

比如這些奇奇怪怪非人視角讓你選一個(gè)bus的照片。

當(dāng)然最離譜最好玩的,得數(shù)15年的12306,當(dāng)時(shí)開腳本搶票的太多,12306的流量壓力實(shí)在太大,被逼的開啟了神跡級(jí)的驗(yàn)證碼,據(jù)說(shuō)人類首次正確率僅為8%,得錯(cuò)3次以上的人占比有65%。

這種逆天驗(yàn)證碼的題目是這樣的。

劉慈欣我不敢打包票,但是范偉我是全認(rèn)出來(lái)了。

時(shí)間走走停停,一眨眼,來(lái)到了2024年。

為了自己家的混元大模型,騰訊也把手,伸向了驗(yàn)證碼。

讓我們開始,來(lái)做AI繪圖大模型的標(biāo)注了。

這部分的標(biāo)注,其實(shí)不是啥圖片美學(xué)質(zhì)量的標(biāo)注,而是對(duì)于圖片理解和映射的標(biāo)注。

通俗地講,就是語(yǔ)義理解。

現(xiàn)在做的,還是最基礎(chǔ)最簡(jiǎn)單的分類,我們標(biāo)起來(lái),還是挺輕松的。畢竟里面都知道,左上角是鴨子,中間是老虎,左下角是蜜蜂,右下角是賽車。

而那兩張白楊樹林,其實(shí),你選任意一個(gè),或者選兩個(gè),都能過(guò)。

比如我這個(gè)圖:一簇在懸掛花盆在生長(zhǎng)的多肉。

其實(shí)你會(huì)看到有兩張都跟多肉有關(guān),而根據(jù)定語(yǔ),一簇,更符合左上角第一張圖,右上角那個(gè)其實(shí)不是一簇是一堆,但是我選了他,依然能過(guò)。

而你想把兩個(gè)都選,你也都能過(guò)。

所以這個(gè)標(biāo)注之心啊,一點(diǎn)都不藏著掖著。

但是確實(shí)這個(gè)做法很有用,比如還是這句Prompt,真正核心難點(diǎn)是一簇。

用這種方式,對(duì)整體的語(yǔ)義理解,確實(shí)有非常大的幫助。

而且現(xiàn)在明顯還是初期,給的prompt和圖,都非常的簡(jiǎn)單,標(biāo)注的難度也不高,甚至一些大廠的標(biāo)注模型直接機(jī)標(biāo)可能都應(yīng)付的過(guò)來(lái)。

但是如果下一次,是“一只在清朝宮殿里生長(zhǎng)的杜鵑花”呢?

一只、清朝宮殿、杜鵑花。難度直接拉滿。

甚至另外幾個(gè)選項(xiàng)給你的也不是差異這么大的動(dòng)物汽車啥的,給你的都是菊花、杜鵑花、喇叭花、玫瑰花,來(lái)吧你就選吧,加油啊標(biāo)注民工。

要知道,標(biāo)注真的很貴的,之前跟國(guó)內(nèi)一家做AI繪圖大模型的公司聊過(guò),才知道他們標(biāo)注分為機(jī)標(biāo)和人標(biāo),而人標(biāo)的成本,大概是數(shù)據(jù)量的十分之一。

也就是你拿出去3000萬(wàn)的數(shù)據(jù),人工標(biāo)一次,就得300萬(wàn)RMB干出去。

而騰訊12億用戶,每天驗(yàn)證碼起碼也是千萬(wàn)的量級(jí),這標(biāo)注費(fèi)用,你可以算算這省了多少錢吧。

所以說(shuō),大廠在如今還在大數(shù)據(jù)的時(shí)代,優(yōu)勢(shì)是真的大。

不過(guò)這種標(biāo)注,目前來(lái)看還是只能解決語(yǔ)義理解的標(biāo)注,但是能把這個(gè)解決也已經(jīng)很牛了,雖然美學(xué)一般,但是語(yǔ)義理解能達(dá)到極強(qiáng),這就是妥妥的國(guó)內(nèi)版Dalle3。

而Dalle3的短板大家肯定也清楚,實(shí)在太丑了。

而要標(biāo)美學(xué)表現(xiàn),難度其實(shí)就大很多,真的得找懂設(shè)計(jì)、懂美學(xué)的人來(lái)標(biāo)注。

Midjourney當(dāng)年其實(shí)就是吃了這波紅利。

第一波獲得用戶,而且獲得的還是一大波的有美學(xué)背景的專業(yè)用戶,然后每次你生圖的時(shí)候給你生成4張圖拼一塊的一張整圖,你還必須選一張你覺得最好的進(jìn)行提取或優(yōu)化。

這就是一種強(qiáng)行的數(shù)據(jù)標(biāo)注。

所以Midjourney在如今的美學(xué)表現(xiàn)上一騎絕塵,是因?yàn)樗麄冊(cè)诿缹W(xué)的標(biāo)注上,做的太好了,而別的家想在這塊趕上,基本不可能,因?yàn)樽罡哔|(zhì)量的那波用戶,基本已經(jīng)全在Midjourney那了。

而騰訊未來(lái)想做這件事,其實(shí)在我看來(lái),還真是有可能的。

因?yàn)槟闫鋵?shí)看Midjourney的路徑,核心點(diǎn)就一個(gè):海量的專業(yè)用戶。

騰訊缺專業(yè)用戶嗎,怎么可能會(huì)缺,12億用戶捏在手上,用戶畫像做的那么齊全,我想把有設(shè)計(jì)師背景的用戶挑出來(lái),難嗎?一點(diǎn)都不難。

我想給挑出來(lái)的這些設(shè)計(jì)師背景的用戶推送美學(xué)標(biāo)注的驗(yàn)證碼,難嗎?也不難。

所以啊,現(xiàn)在在我看來(lái),騰訊的驗(yàn)證碼標(biāo)注,才剛剛向前邁了半步,后面的模型空間,還很大。

唯一問(wèn)題就是,騰訊內(nèi)部有點(diǎn)封閉,用戶畫像數(shù)據(jù)PCG做QQ的那邊肯定有,但是混元跟PCG不是一個(gè)事業(yè)群,也不知道能不能拿得到。

能拿到的話,那就是王炸。

但是不管怎樣。

你我都已經(jīng),身在其中了。

10年前,就已經(jīng)是了。

原標(biāo)題:《騰訊把12億用戶,都變成了免費(fèi)的"標(biāo)注民工"。》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            百家乐官网视频交友| 澳门百家乐官网路单| 狮威娱乐| 太阳百家乐管理网| 玩百家乐是否有技巧| 大发888 游戏下载| 宝龙百家乐娱乐城| 百家乐官网免佣台| 大玩家娱乐| 百家乐大赌场娱乐网规则| 网络百家乐官网的信誉| 百家乐开户| 德州扑克视频| 大发888官方爱好| 加多宝百家乐的玩法技巧和规则| 百家乐视频无法显示| 真人百家乐官网送钱| 真人百家乐官网开户优惠| 汾西县| 宝马会娱乐城网址| 百家乐15人专用桌布| 三元风水24山水法| 葡京百家乐官网的玩法技巧和规则| 百家乐官网视频双扣游戏| 桐柏县| 天天乐娱乐城官网| 唐人博彩| 湘乡市| 百家乐官网大赢家书籍| 百家乐官网如何取胜| 百家乐官网心得分享| 百家乐官网体育博彩| 太阳城娱乐城网站| 88娱乐城怎么样| 大发888老虎机下载| 百家乐外挂程式| 百家乐官网现场新全讯网| 浮梁县| 百家乐官网赌假的工具| 百家乐官网是赌博吗| 百家乐官网游戏百家乐官网|