军人边走边吮她的花蒂,heyzo高清中文字幕在线,日韩av无码中文字幕,俄罗斯freexxxx性

  • 資訊
  • 報告
當前位置:中研網 > 市場分析 > 深度分析 > IT與通訊

人工智能背后的人工——標數據的人

  • 2018年2月24日 ZhangHongYuan來源:甲子光年 777 47
  • 繁體

5到10年后,當人工智能全面普及,科技先驅和新一代商業巨子注定會被時代的聚光燈銘記。但今天,我們卻想說一個關于人工智能“從未被講出”的故事,寫一群時代大幕后的“隱形者”——標數據的人。

IT,人工智能,人工智能背后的人工

5到10年后,當人工智能全面普及,科技先驅和新一代商業巨子注定會被時代的聚光燈銘記。

但今天,我們卻想說一個關于人工智能“從未被講出”的故事,寫一群時代大幕后的“隱形者”——標數據的人。

智能時代滾滾巨輪之下,一批批用于“人臉識別”“自動駕駛”“自然語言處理”的標注好的數據,正是出自這些學歷不高,每天對著電腦工作8到10小時的人手中——他們是“人工智能背后的人工”。

記者采訪了多個數據標注服務商、數據標注工作室和數據標注者。據業內人士估計,中國全職的“數據標注者”已達到10萬人,兼職人群的規模則接近100萬。

他們中有職高學生,有嘗試過40份工作的聾啞人,有從工地輾轉而來的新生代農民工……他們源源不斷地為人工智能的發展供應最重要的“數據燃料”——在現有的技術框架下,數據量越大,質量越好,算法模型就表現越好。可以說,數據決定著整個人工智能行業的發展態勢。

但標注工作本身是一個勞動密集型工種,收入并不高。隨著技術的進一步發展,未來還有被取代的可能。許多數據標注者的父輩是參與了中國房地產奇跡的農民工。如今,父輩手里的鐵鏟變成了年輕人的鼠標、鍵盤,但和父輩一樣,他們仍是邊緣者。今年春節,他們也像父輩一樣踏上了歸鄉的旅途,不僅是從城市回到鄉村,也是從科技前線回到古老的火爐前。

小志從貴陽坐了四小時的大巴回到山區家中,第一件事就是將錢塞到母親手里;

犇犇給父親買了新的電動剃須刀;

何軍家在河南周口,打算把錢都存著娶媳婦,過年期間要見幾個相親對象;

小袁想再掙點錢后換一副助聽器,現在這個他已戴了好多年,把他不斷長大的耳蝸磨出了新新舊舊的傷……

我們無法預判他們的命運,但選擇講出他們的故事。這些科技進步背后的“無名者”值得一次認真的注視。

數據折疊

人工智能的世界里,存在不為人知的“數據折疊”:

一邊是炫酷的科技、神奇的智能應用;一邊是大量人工每天重復地生產機器學習的“食物”——標注好的數據。

北京和貴陽,是數據標注世界里的兩座“雙子星”城市。北京聚集了大量人工智能公司;貴陽近年來著力發展“大數據戰略”,已擁有相對完整的數據服務產業生態。

2017年,僅北京中關村大數據產業規模就超過700億元;貴陽2017年的大數據產業及其關聯產業規模總量超過1500億元。AI行業的總規模也在持續增加,根據麥肯錫2017年4月發布的一份報告,到2025年,AI應用的總市場可能達到1270億美元。

但標注數據的人,生活在這些巨額數字之外,拿著不高的工資,活動在“第二空間”。

從三里屯驅車1小時,行駛30公里,就到了北京郵電大學宏福校區。這里有北郵和華騰碩博合辦的電子商務培訓班,學生總數300多人,高峰時期,有120多人參與數據標注的兼職項目。

標注工作室占滿了某棟教學樓二層的5個房間,150臺電腦前坐著一群十八九歲的學生,正盯著電腦屏幕給圖片拉框。他們流程化地操作鼠標——這些枯燥的工作,最終將用于熱鬧炫酷的無人駕駛項目。

從做數據標注的教室窗口向外望,可以看到北郵的教一,那里有國際學院和計算機專業學生專用的機房。

兼職標數據的培訓班學員一個月的收入在2000元左右。如果全職做,人均工資約4000到5000元。而坐在教一的未來算法工程師,剛畢業時,起薪就可能達到30萬元/年。

培訓班學員參與的標注項目,采用了目前數據標注行業的主流模式之一——“外包”。

某數據標注主管告訴記者,AI數據標注的外包市場2011年開啟,2015年真正開始,2016年下半年出現收縮,2017年又有了新一輪的爆發。

外包盛行,是因為人工智能的發展需要大量人力對非結構的數據進行加工,以用于機器學習。而創業團隊和巨頭公司,為了集中精力研發或保持團隊的高學歷占比,很少完全自建數據標注團隊。

外包江湖門派眾多、良莠不齊。

從業者是這樣打招呼的,“你是發包方還是外包方?”

BAT、人工智能創業公司,學術團體,以及政府、銀行等機構都可能成為發包方。BAT和人工智能公司需求最大,學術團體次之,政府、銀行等傳統機構的需求最小但有不斷增長的趨勢。某數據標注主管告訴記者,他目前所接觸到的上述三類業務需求的比例為7:2:1。

某數據標注公司負責人透露,商湯、曠視這類大的人工智能公司,一年在數據上的支出有數千萬。

在“外包方”一端,有 “眾包”和“工廠”兩種模式。前者是把任務通過平臺轉接給網民,如“百度眾包”“京東眾智”“龍貓數據”;后者是自己經營團隊,對整個流程進行控制,如貴陽夢動科技經營了一個500人的“數據工場”;BasicFinder與二十來家“數據工廠”有長期業務合作,少則幾十人,多則兩三百人。而在規范的機構之外,還游離著三五人到十幾人規模不等的“小作坊”。

許多機構在眾包和自營工廠兩方面都有涉足,眾包平臺上也有許多以團隊為單位接單的“公會”。

算法公司和人才多集中在北深杭等科技核心區域,而作為一個“勞動密集型”的中低收入行業,數據標注人員散落三四線城市。

在距離貴陽市中心50公里的百鳥河數字小鎮,有一個規模500人的“數據工場”,500名標注員中,近一半是附近一家扶貧高職“盛華職業學院”的學生。

他們很珍惜這個接近“白領”的兼職機會,1月能掙到1500元,經濟上足以自立,省點還可以補貼家用,相比其他兼職選擇:去餐廳辛苦端盤子或頂著風雨送外賣,數據標注相對輕松且體面。

盛華學院大數據專業老師,同時也是貴陽夢動科技人工智能服務部總監的曹珊告訴記者,她曾帶著七個學生來北京某人工智能公司參加圖像標注培訓,通過后可留下來實習,但競爭激烈,五十九人只留十個,其中不少是北京本地學校的競爭者。最終,這7位來自貴陽的同學都留了下來。

這些年輕的數據標注者,一頭連著最前沿的科技,一頭連著他們的家鄉——那里往往是貧困、閉塞的所在,是科技的影響力最微弱的“第三空間”。

小志是曹珊的學生,數據工廠臘月二十七才放假,小志坐了四小時大巴回到山區的家里,父母都務農,身體也不好,家里除了房子和田,唯一像樣的財產是一頭牛。

進高職前,小志甚至都沒碰過電腦,唯一會的操作是按開關鍵。電腦極大地打開了他的世界,但也讓他一度沉迷游戲。最嚴重的時候,課不上了,數據不標了,覺也不睡了。

曹珊為此和小志長談了多次,目前小志的生活漸漸步入正軌,成了數據標注的小組長,手里帶著十多個同學。

但未來工作前途的不可預期,相對低的收入,較大的家庭負擔,仍然是這些年輕人無法擺脫的苦惱。

父輩的積累相當頑固,無論是財富、聲望,還是貧窮和負擔。

父輩與我:從建筑工地到“智能工地”

犇犇的人生在某種程度上,是對父親的繼承。

他是西安某數據標注工作室的標注員,犇犇和他所在的工作室代表了數據標注行業的另一種典型模式“小作坊”。

今年26歲的犇犇,先后做過廚師、進過工廠、推廣過數種數字貨幣,但沒有一份工作做得長久。

犇犇父親在他這個年紀時,是鎮上棉紡站的一名工人。2005年棉紡站關門,下崗后的父親去甘肅當過兩年鉆井工人,此后一直在做建筑。

直到2017年12月初,犇犇還不知道數據標注這個工種。

當時他接到靈的一個電話,邀請他一起做數據標注工作室。靈和犇犇曾一起推廣數字貨幣,行情最好時,一筆交易能拿兩萬提成。但好好的幣,玩著玩著沒了,他們的這次合作鎩羽而歸。

經歷上一次失敗后,靈又殺進數據標注領域,很快,她組建了15人規模的工作室,團隊成員都跟犇犇一般大,氛圍很好,他們常常一邊標數據,一邊聊天,時間并不難熬。

最難受的是眼睛。從早上九點到晚上六點,工作內容就是盯著屏幕給圖片拉框。拉框要求十分精細,偏差絲毫都不行。犇犇眼睛干澀時,會起身去樓道抽煙。

眼睛的難受熬熬就能過去,更愁人的是工資不高。

犇犇笑著說,入不敷出啊。他在供一套鄭州的房子,每個月要還4700的房貸,而工資撐死就五六千。

在犇犇看來,這份工作也沒什么前途:“跟電子廠一樣,多做多得。”

犇犇的夢想是在全國開很多養老院,因為小時候的鄰居是獨居的七十歲老人,“沒人養很可憐”。

但開養老院對現在的犇犇來說太難了,他養自己都難。

數據標注的晉升之路只有兩條,每條都是窄門:

要么進數據公司,爬完標注員-標注組長-數據經理-數據總監這個鏈條,層層打怪升級;要么進人工智能公司當數據標注員,然后憑借超人毅力自學技術曲線救國。

前一條路不需要學歷,但是千百人過獨木橋,且依舊是在數據標注圈子里打轉;后一條路能真正學到東西,但對學歷有要求。

犇犇只有高中學歷,連高考都沒參加。因為不愿再讀書,他跟父親起過很大爭執,父親深知打工有多苦。高三的那個暑假,犇犇也去體驗了一把:跟著父親去工地上搬磚。

現在,他成了一名“智能工地”上的新型“搬磚者”。

對科技、社會和自身的關系,如今犇犇有清醒的認知:“人工智能就像是一個孩子,標注好的圖片就像是孩子的食物,而我們就是制作食物的人,最苦最累的我們做了,成名的只是那些制造孩子的人。”犇犇說。

兩代人的命運在此重疊。

農民工一磚一瓦壘起了實體城市的高樓;數據標注者一框一線搭建起了算法的智能。前者是城市的邊緣者,高樓起來了,他們仍是邊緣者;后者是科技世界的邊緣者,機器變聰明了,他們還是邊緣者。

犇犇會最終棲居在數據標注這份工作上嗎?他給的答案是不確定的,他不知道這份工作是否不出幾年就被取代,也不知道自己是否就此乖乖認命。

中國有五千多萬的農民工以建筑為生,到了五六十歲還在工地上忙碌。數據標注的市場才剛打開,「甲子光年」從從業者口中得知,截止2018年年初,以數據標注為生的全職標注員規模達近十萬,這個數字未來會繼續增長,未來將達數十萬。數字標注也將成為新生代農民工的聚集地。

野蠻生長,坑與機會并存

相比聚光燈之下的人工智能科技公司,數據標注行業是個在暗處的行業,存在大量灰色地帶。

作為一個勞動密集型行業,進入門檻并不高,壓低“成本”、“薄利多量”,就成了許多團隊的競爭手段。

許多公司招的標注員都是沒有交五險一金的臨時工。7、8萬的啟動資金,就可以在四五線小城組起一個“工作室”。

AI公司也傾向壓低成本——某數據標注公司主管告訴記者,部分人工智能公司對數據標注的重視不夠,過分壓低預算,把項目外包給一些不靠譜的團隊;這些團隊做不完、做不了,又會把任務轉包給另一些小團隊,或重新找到大的數據標注公司,使質量和交期都無法保證。

“低價競爭和行業不規范導致的層層外包是行業的噩夢。”京東眾智平臺的負責人李工告訴記者。

對小團隊來說,外包直接折損了利潤。

做過室內裝修的何軍,在2017年底投入十萬積蓄作為啟動成本,在河南周口成立了一個40人團隊的數據工作室。他2018年的最大計劃,就是“爭取接到一手項目”。

“利潤其實不高”,何軍一邊抖著腿,一邊掰著手指頭細細算賬,“你看啊,一個拉框平均4分錢,一個員工一天能做大約4500個,一共180塊。過關率90%,再除去審核的成本,再給每個標注員每天發110元左右的工資,平均下來工作室每天也就從每個人身上賺30塊吧。”何軍第一個月虧了本,第二個月勉強持平。

“開年就去跑工商注冊,然后一家家聯系大公司,得接到一手項目,給員工的多發點工資,現在太低了。”何軍說。

小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說,聽過沒見過。

處境相似的趙聰也特別想接到一手項目。他是2017年10月入場的標注者,自己攢了三個人的團隊兼職做數據標注。“我們的項目都是從小公司手里接的,連發包方的名字都不知道”,趙聰說,“利潤很低”,三個人,三個月,三個項目,每人也就獲得了一千塊收入。

大平臺也反感層層外包,因為這嚴重擾亂行業秩序。

“數據標注看起來門檻很低,但其實管理的門檻并不低。價格、產能、交期和質量都要兼顧。很多小團隊,拿到的項目自己消化不了,最后又會找到我們。”BasicFinder的杜霖說。

而針對一些特定的復雜任務,還需要進行足夠的培訓,有的培訓期需要1到3個月。在理解客戶需求、保證數據的多樣性、隨機性上,許多小團隊也欠缺必要的能力。

層層外包,對數據標注員的直接影響是:攤薄了收入,錢被中間環節分掉:一手的項目在誰手上,價格多高,會經歷多少層級,每層有多少利潤,都是謎。

還有另一個角色在攪亂這趟渾水——代理人。

代理人說白了就是拉項目跑活兒的人,關系戶,是中國人情社會里長出的變量。一些小公司會高薪養代理人,以期打通關鍵節點。

趙聰無奈地說,“靠關系吃飯的社會”,最末端的標注者最缺這種關系資源。

杜霖認為,這個行業經歷了早期的瘋狂生長,最終一定會經歷一番洗牌,變得更為規范化、透明化。屆時質量會取代成本,成為需求方最優先考慮的變量:

“人工智能公司的本質需求是能找到靠譜團隊。大家最后都會明白,背著抱著一邊沉,想省的錢都省不掉,要保證質量,就是一分錢一分貨。 ”

大浪淘沙,有兩類機構會最終留下來:注重質量及服務的中小型數據標注公司,以及自有整套數據技術的平臺。

而犇犇、何軍以及趙聰都有可能被行業清洗出去。

還有5年,只有5年

經營小工作室的何軍已經開始緊張了,他聽說算法升級后,將不再需要大量人工標注。由于對技術動向缺乏把握,他時常處于一種對未來的不安之中。

杜霖則認為,至少在5年內,數據標注行業的增長空間還很大,數據標注的市場才剛打開,數據需求將緊隨人工智能的大規模落地引來一波爆發式增長。

首先,人工智能行業本身的發展,將進一步帶動數據標注行業。目前能被建模量化的數據只占真實世界中的極少一部分。現有的數據標注業務主要集中在安防和自動駕駛領域,未來,隨著AI深入更多垂直行業,新需求將不斷出現。

何軍告訴記者,前些天就出現了一個他沒見過的標注內容,北航的學生找上門來,要對“積云”進行標注。杜霖也跟記者分享,他們做過一個很有意思的標注項目——標注指甲區域,因為客戶要做美甲機器人。

其次,在現有的主流“有監督學習”的算法模型下,為了讓算法有更高的準確率,數據不嫌多。Google的技術大牛Jeff Dean曾在一次公開課上展示一個海量數據的訓練結果,如下圖所示:橫軸代表數據規模,縱軸代表準確率,藍線是深度神經網絡算法,綠線是傳統訓練方法。

可以看到,藍線的準確率和數據規模及質量持續成正比,并沒有出現趨于平滑的拐點,這說明深度學習對數據有源源不斷的需求。

第三,從感知智能到認知智能的跨越,需要的數據維度會更大,這可能催生更精細的數據標注需求——如對一段對話數據的標注,不僅要知道對話內容、語義,可能還需要標注談話者身份、情緒變化等。

杜霖告訴記者,人工智能公司的總支出中,目前有20%-30%用于數據,現階段大陸市場數據采集及標注的規模保守估計有五十億。一個參考是,新三板上市公司數據堂2016年的營收達到了9680萬元人民幣。

京東眾智平臺的負責人李工對未來也很樂觀,他認為,包括采集、標注、清洗等流程的數據市場未來將達上百億。

但這一切都是基于“有監督學習”這個大前提。行業的一個變量是,如果算法從“有監督學習”升級為無監督學習、強化學習或遷移學習,數據標注需求將大大減少。

技術進步和躍升自有其規律,目前無監督學習等新算法仍然只是學界的探索,尚不能用在大規模的商業落地中。

杜霖判斷,新的革新性算法,至少5年內都不會出現。Novumind創始人吳韌此前接受記者專訪時則認為,深度學習加大數據就是人工智能的“way to go”,較難出現顛覆性的其他路徑。

5年,對公司來說是一個可以布局、掉頭的“窗口期”。京東眾智的李工告訴記者,他們應對變化的策略是輕運營和“產品化”,著力研發加速AI落地速度的Pre-A.I.產品,并同時研發平臺技術,做到“數據與流程分離架構”。數據標注本身不是他們的核心戰略。

BasicFinder也有類似布局,他們希望一手對接垂直行業里的數據生產者,一手對接上游的算法模型公司,共同推進AI的行業落地。

但對數據標注者個體來說,5年后,也許就不得不面臨再一次“失業”。到時,他們還能跟隨時代的腳步騰挪轉移嗎?

燙手的小袁

小袁暫時想不到5年后那么長久的事。

作為一名換過40份工作的聾啞人,他很慶幸,終于在“數據標注”領域成了“有用的人”。

小袁是京東眾智平臺上“靜公會”的聾啞人標注員,這個公會全部由聽障人士組成。

先后在餐廳、奶粉廠打工的小袁,總是因為無法避險、難以溝通被辭退:“我是燙手的小袁,因為我是聾啞人,所以我總是會燙到身邊的人,被扔出很遠很遠。”

相比過去的工作,數據標注的安全性更高,但也需要相互溝通。

杜霖和殘疾人群體深入交流后發現,聾啞人的世界里多為名詞、缺乏形容詞,比如要向他們解釋這根線標得不“直”,就會比較費勁。由于輸入信號會被擋掉一半,所以聾啞人接受速度只有健全人的三分之一到五分之一。健全人一周能搞定的培訓,聾啞人要花三周或更久。

但是他們的優點是專注、較勁兒、對視覺信號敏銳,數據標注行業對他們來說是機會。

齊工是京東眾智平臺的培訓講師,幾乎每天都去給小袁和工友講課。齊工說,“想當把英雄,承擔更多的責任。”

第一次,他們在工作中找到了歸屬感。像小袁這樣的聾啞人在眾智平臺上還有一千多名,京東為他們成立專門的“靜公會”,項目上優先照顧。全職每月有三四千收入,兼職每月有一千以上收入。

杜霖手下也有三個殘疾人團隊,總共約80人。杜霖和京東負責人都表示,愿意為更多殘疾人提供工作機會。

在數據標注這份職業消失之前,這里是他們的家。其中的少數人,也許能通過轉型為數據質檢者,獲得更長期的職業生涯。

杜霖將公司取名為BasicFinder, 初衷是找到人工智能世界中最本真的一層關系——數據。新生代農民工和聾啞人,投身于數據標注這份工作中,也是希望找到最本真的生活。他們的要求很樸實,用犇犇的話來講是:有一份穩定的工作,有一個幸福的家庭。

但科技的發展,必將帶來智能升級,也使整個行業更加規范化。

這有點像武士的悖論:武士存在是為了消滅敵人,但是消滅了敵人武士也就失去了存在的理由,這個意義上,他們是在消滅自己。

數據標注者的工作是幫機器更好的學習,促進人工智能行業的發展,而當行業發展到一定階段,可能將不再需要如此眾多的人工標注。

其實整個人工智能的發展歷程也有點像“孤獨的武士”:人類發明了機器,到頭來機器很可能取代大部分人工,甚至是“發明者”本人。

但是,是武士,就必須去消滅敵人。對知識的無限追求既是人類的天賦也是人類的危險,它早已深藏于我們的基因之中,呼喚我們不斷逼近未知邊界。

更高的智能一定會到來,認知差距將取代財富差距成為最顯著的人群劃分標準——那可能是一種更無形的“折疊”。

未來,當我們真正享受智能帶來的各種便捷時,歷史會遺忘這些人工智能領域的“首批工人”嗎?

這可能是除了技術水平之外,判斷那個未來是好是壞的更重要的標準。


延伸閱讀

細分市場研究 可行性研究 商業計劃書 專項市場調研 兼并重組研究 IPO上市咨詢 產業園區規劃 十三五規劃

中研網 中研網 發現資訊的價值 研究院 研究院 掌握產業最新情報        中研網是中國領先的綜合經濟門戶,聚焦產業、科技、創新等研究領域,致力于為中高端人士提供最具權威性的產業資訊。每天對全球產業經濟新聞進行及時追蹤報道,并對熱點行業專題探討及深入評析。以獨到的專業視角,全力打造中國權威的經濟研究、決策支持平臺! 廣告、內容合作請點這里尋求合作

推薦閱讀

/UserFiles/image/20180224/20180224112127_3974.jpg

外媒:在資助AI初創公司方面中國已超過美國

據國外媒體報道,來自技術分析公司CB Insights報告顯示,該報告稱在資助AI初創公司方面中國已經超過美國。2017年,中...

/UserFiles/image/20180224/20180224111002_9323.jpg

國內設計師互動平臺站酷完成1500萬美元B+輪融資

國內設計師互動平臺站酷宣布完成1500萬美元B+輪戰略融資,投資方為美國上市公司Shutterstock。據了解,本輪融資將用S...

/UserFiles/image/20180224/20180224105328_6454.jpg

京東自主研發的全球首個智能物流終端首次公開亮相

京東自主研發的全球首個智能物流終端——“無人智慧配送站”首次公開亮相,該終端可存儲至少28個貨箱,具有1個發貨箱1...

/UserFiles/image/20180224/20180224105828_4315.jpg

HTC欲加速各地區VR部門和手機部門合并

曾經在智能手機剛剛興起的時候,HTC作為最早關注這一領域的品牌有著出色表現,旗下的產品憑借性價比和技術優勢以及與A...

/UserFiles/image/20180224/20180224104000_2311.jpg

貝佐斯身家水漲船高 已領先蓋茨317億美元

貝佐斯身家水漲船高 已領先蓋茨317億美元據國外媒體報道,由于亞馬遜股價在最近幾個交易日不斷創下新高,其CEO貝佐斯...

/UserFiles/image/20180224/20180224104549_2821.jpg

蘋果公司被評為全球最具創新力企業

據外媒Macrumors報道,美國著名商業媒體周三發表了對蘋果公司首席執行官蒂姆·庫克(Tim Cook)的采訪文章,i...

猜您喜歡

【版權及免責聲明】凡注明"轉載來源"的作品,均轉載自其它媒體,轉載目的在于傳遞更多的信息,并不代表本網贊同其觀點和對其真實性負責。中研網倡導尊重與保護知識產權,如發現本站文章存在內容、版權或其它問題,煩請聯系。 聯系方式:jsb@chinairn.com、0755-23619058,我們將及時溝通與處理。

中研普華集團聯系方式廣告服務版權聲明誠聘英才企業客戶意見反饋報告索引網站地圖 Copyright ? 1998-2020 ChinaIRN.COM All Rights Reserved.    版權所有 中國行業研究網(簡稱“中研網”)    粵ICP備18008601號

研究報告

中研網微信訂閱號微信掃一掃

主站蜘蛛池模板: 西华县| 伽师县| 金坛市| 莎车县| 萍乡市| 亚东县| 苗栗市| 昌宁县| 巨野县| 马尔康县| 祥云县| 民勤县| 娄烦县| 繁峙县| 迁西县| 武陟县| 静宁县| 屏南县| 微山县| 霍州市| 固镇县| 澎湖县| 徐闻县| 临泉县| 赫章县| 衡阳县| 夏河县| 仁寿县| 双鸭山市| 奉化市| 古浪县| 出国| 龙南县| 南和县| 太白县| 定结县| 社旗县| 揭东县| 普格县| 关岭| 罗城|