火爆“智能”下的慘淡“人工”
從人工智能發(fā)展高地北京到代河南鄭州只需要兩個小時的高鐵,那里有中國最大的代工廠富士康。再從鄭州火車站出發(fā),半小時車程,到達 一棟不起眼的寫字樓,打開一間沒有任何標志的大門,就是目前河南最大的人工智能數據標注工廠翊澳數據的總部。
本文引用地址:http://www.ljygm.com/article/201810/393156.htm聚集在北京的人工智能公司里,隨處可見人臉識別機器以及實時的大數據熱點圖。但這家數據工廠里,并沒有任何智能的樣子,也沒有普通工廠里的流水線,更像是一間網吧——裝修簡單,幾十臺電腦依次排開。
正值午休時間,一半的電腦前面空空如也,還有數十名員工坐在電腦前,或是吃著打包來的午飯,或是掏出手機打游戲,也有部分標注員還在處理一張張模糊或清晰的照片。
數據標注行業(yè)流行的一句話,“有多少智能,就有多少人工”。目前AI算法能學習的數據,必須通過人力逐一標注,這些人力為AI產業(yè)提供養(yǎng)料,這是AI金字塔的基礎,處于最底層。
此前,一些數據標注工廠被冠以“血汗工廠”的名號,為了應對龐大的數據標注需求,標注員們必須加班加點的盯著電腦屏幕,夜以繼日的重復枯燥的工作,但眼前的這個工廠里,似乎有些清閑。
“聽說北京AI很火,我們也想參與進來?!瘪窗臄祿偨浝斫▊Α敦斀洝酚浾哒f。
靳建偉經歷豐富,善于追逐潮流。微信最火的時候他做過微信推廣,拼多多起來后在上面賣過襪子,還在關注短視頻營銷行業(yè),“你知道抖音推廣吧?就是一個后臺可以操縱一百個賬號那種,據說很賺錢?!?/p>
大多數AI初創(chuàng)公司還處于依靠融資發(fā)展的階段,但數據標注產業(yè)更像傳統行業(yè),拿一單數據結一單錢,江湖中流傳的傳說是,這個領域已經創(chuàng)造了不少“一夜暴富”的故事。
被這樣的故事吸引,不少像靳建偉一樣的人們加入了這場淘金游戲,但現實給了他們當頭一棒。
2018年,河南省的數據標注公司死掉了一大半,剩下幾乎都在艱難求生,接受《財經》記者采訪時,靳建偉已經2個多月沒有接到新的訂單,工廠員工從600人,銳減至200人,他覺得自己恐怕需要開始找下一個風口了。
撞進了AI圈
靳建偉今年28歲,2017年以前,他甚至沒聽說過“數據標注”這個詞。
他并不懂AI算法和技術,也不太清楚AI到底能解決哪些問題,2017年,他偶然聽說做數據標注能賺錢,當時他正從事證券銷售業(yè)務,由于沒有資質,公司被關停,他找到一個賣保健品的朋友,共同成立了這家數據標注公司。
2017年,中國AI創(chuàng)業(yè)開始達到頂點。對數據標注的需求也迅速爆棚。河南是人口大省,數百家數據標注公司在此誕生。靳建偉算了一筆賬,一個成熟的標注員,月產值能做到7000元,除去3000元的工資和質檢、場地設備等費用,公司能賺1500元。
“那我不斷招人就行,如果招100個人,一個月就賺15萬?!苯▊フf道,“怎么看都覺得這個生意靠譜。”
有電腦,有場地,再迅速招一批沒有學歷、工作經驗要求的數據標注員,就可以迅速上手。
深度學習的關鍵在于大量的數據訓練,數據訓練之前,必須對這些數據進行明確的標注。例如,機器需要識別斑馬線,就必須提供大量標注了斑馬線的數據來進行學習,數據量足夠大時,機器就可以識別出任何角度的斑馬線。
這意味著,在某種程度上,AI算法的優(yōu)化,取決于數據標注的質量,而把控這些質量的,是完全不懂AI技術的一群人。
一名沒有任何經驗的標注員,通過半天的培訓即可開工, 1-2個月之后可變成熟練工,一天就可以完成1500-2000張圖片的標注。
需要標注的圖片數據從客戶提供的數據處理平臺上打包下載,根據不同的需求進行標注,常見的包括物體識別和人臉識別,物體識別主要是“畫框”,人臉識別則是“打點”。完成后會進行一到兩道的質量檢測程序,來確保標識準確率,合格后會重新傳送到客戶的數據平臺上。
然后,這些數據會被應用到自動駕駛、AI安防、智能身份認證等新興應用領域。
依靠這些應用,人工智能公司在資本市場頗受追捧,投中研究院發(fā)布的數據顯示,2018年上半年,進入商業(yè)化階段的中國人工智能行業(yè)已經獲得超過400億人民幣的融資。
這400億的資金,僅有極少部分流入了數據標注行業(yè)。企名片收錄的標簽為“數據標注”的公司共有15家,2018年,這15家公司共完成6筆融資,單筆融資金額約為1000萬人民幣左右,總計不超過1億人民幣。
靳建偉還沒考慮過融資這件事,他聽說北京的AI公司都在以億為單位進行融資,但他的思維和之前的數次創(chuàng)業(yè)沒有區(qū)別,找客戶,做業(yè)務,能賺錢,才是應該做的事情。
單打獨斗在當下的AI圈很難混得開。由于完全沒有相關行業(yè)經驗,也沒有資本加持,一開始靳建偉只能接二手,甚至三手訂單,也即外包服務?!耙恍┯星赖墓窘恿擞唵危约翰蛔?,或者自己做不過來,就分發(fā)給我們做,他們再從中間收取差價?!?/p>
與很多行業(yè)一樣,渠道是核心競爭力,中間商們不需要耗費太多的人力物力,就能賺取可觀的利潤,底層的工廠們,加班加點,只能勉強維持經營。
這樣下去可不行。在熟悉了行業(yè)之后,靳建偉開始主動出擊,拓展渠道,試圖繞過中間商。從知名的頭部AI公司開始,到所有他能找到聯系方式的中小AI企業(yè),他問了個遍。得到的回應要么是“不需要”,要么是“我們已經有了自己的數據標注團隊”,更多的是石沉大海,沒有回音。
“人家上來就問你,以前做過哪些項目,我說不上來。”他很無奈。
類似商湯科技、科大訊飛這樣的頭部AI公司,都會自建數據標注團隊,既能方便管理,也能更好的理解需求。
但確實也有大量AI公司,由于團隊人數、資金成本有限,有外包數據標注的需求,但大部分都會通過熟悉的渠道尋找標注團隊,或者和大平臺合作,例如百度眾測平臺。
百度眾測是百度旗下的一個類似眾包模式的數據平臺,2014年在百度世界大會上正式推出,平臺上會分發(fā)各類任務,在行業(yè)內稱為“放題”,包括數據采集、圖片標注、文本標注等。
百度在中國人工智能領域起步早,渠道輻射廣,眾測平臺上每天都有大量的數據標注需求,并且開放注冊,這讓靳建偉看到了機會。
飽一頓,饑一頓
距離鄭州車程兩個小時的河南新鄉(xiāng)輝縣,甚至找不到一棟商用寫字樓。從馬路邊一個毫不起眼的門洞上樓,就是翊澳在輝縣的工廠,也是該公司目前規(guī)模最大的一個廠。
兩層樓,近500平方米的空間里,劃分出了三片工作區(qū)域,但目前僅有一片區(qū)域開工運轉。
翊澳下面類似這樣的分廠有十幾個,分布在河南省內各個縣市里。
由于百度眾測平臺提供了訂單來源,翊澳幾乎是在一夜之間發(fā)展成這樣的規(guī)模,靳建偉拉來以前一起做證券銷售的同事們,讓他們回到各自的老家成立分工廠,并擔任負責人,“之前一起做過事,已經有信任關系,下面這些地方場地租金更便宜,員工工資也低,更省成本?!?/p>
評論