大數據將帶我們去向哪里
用大數據可以驅動整個人工智能的進化,不是機器的進化,而是說我們的生活、我們的工作,用數據驅動,用智能演進。 ——閆安
近日,杭州量子金融服務有限公司聯合創始人閆安來到由山東省社科聯、山東大學等聯合主辦的齊魯大講壇,主講“人工智能與大數據”。閆安先后畢業于中科大少年班、中科院軟件所、布朗大學和華盛頓大學,曾在微軟總部、微軟中國和阿里巴巴的大數據核心部門任負責人。
演講 閆安
整理 本報記者 徐蓓
只是數量大不是大數據
大數據,顧名思義就是數據量很大。我在微軟工作時,他們的數據集是當時世界上最大的,比阿里的還要大60%。
但是,簡單的數量大還不能稱之為大數據,真正的大數據有幾個特性。
第一,體量大。擁有大數據的公司鳳毛麟角,只有像BAT、谷歌、Facebook這樣的一線互聯網企業才能有這么大體量的數據。
第二,速度快。前不久的“雙11”,大家看到直播屏幕上的數字在不停地閃跳,完全是實時播報,天貓“雙11”成交額超過100億元只用時3分01秒,而去年“雙11”突破100億則用時6分58秒,每秒鐘的支付寶交易達到十幾萬筆。在我們看來,“雙11”交易背后的數據量是驚人的,從國外公開的數據看,他們歷史存量的數據還沒有淘寶幾分鐘產生的數據多,所以大數據的另一個特征在于產生的速度非常快。
第三,有價值。真正的大數據會產生一定的價值,而不是一堆毫無價值的數據。
第四,多樣性。這也是大數據最重要的特性。當大數據有了多樣性,即使沒有那么大的體量,也會產生出獨特的價值來。比如說在公安刑偵領域,幾張車票看不出什么價值來,但如果加上住宿信息,就能挖掘出同伙資料,這就是大數據的多樣性帶來的好處。
在大數據時代,數據變成了資源。
阿里巴巴創始人馬云經常說一句話,阿里巴巴不是一家電商公司,而是一家數字公司。馬云從心底里看重大數據,因為他明白,有了大數據,他才會不斷產生新的業務。在今年的云棲大會上,他說了一句很豪氣的話:阿里什么行業都能做!他的底氣來自哪里?正是來自這些年積累的大數據。
用數據來說話
為什么說大數據時代已經來臨?
第一,一切事物都在數據化、在線化。
現在的消費者每個人手里幾乎都有手機,這也就意味著每個人都持續在線,手機本身就是一個信息采集器,你做的很多事情都是在不停地輸出數據。
其他很多事情也是如此。正在研究的無人駕駛汽車,只要汽車開在路上,它就開始采集數據,而且每秒鐘就能采集到很大的數據量。還比如很多農民家屋頂上安裝的太陽能發電系統,直接連接到國家電網進行銷售,這一切都已實現在線化。在線的數據是活的數據,只要線上化之后,持續不斷的數據搜集進來,大數據就能做起來。
第二,數據的計算和存儲能力持續加強,成本劇降。幾十塊錢、幾百塊錢就可以進行大體量的計算,這使得大數據的應用成為可能。
大家都聽說過云計算,其實云計算就是一種公共服務。幾年前的春節,大家要買火車票,可是12306網站經常登錄不上去,因為春運期間比平時要多出幾十倍的流量。12306網站不可能投資很多電腦設備去更新,因為除了春節以外平時就會閑著,資源閑置怎么辦?于是,就可以用云計算來解決,電腦需要多用的時候就租來用,像水和電一樣,用得多就多收錢,用得少就少收錢。
現在提供云計算服務的公司包括阿里云、騰訊云、亞馬遜等,它們的機房里放了很多機器設備,我用多少就付費,用完了再還回去,所以最近幾年12306網站70%的流量都由阿里云來進行彈性計算。云計算讓一家普通的創業公司也能使用大數據的強計算量,而不是只有BAT這樣的大公司才能有這樣的特權。因此,云計算也是大數據時代來臨的重要標志。
第三,使用大數據已經成為大家的普遍觀念,而不只是個別人很感興趣。就像美國著名統計學家、質量管理學家愛德華茲·戴明所說,除了上帝之外,任何人都必須用數據來說話。
大數據怎樣改變生活
我給大家舉些例子,看看大數據是怎么改變我們的生活的。
美國9·11事件時,一共有21個劫機犯,當時大數據還沒有發展到一定的階段,如果當時能夠采用大數據進行關系挖掘的話,也許這個事件可以避免。其實,就在事件發生前的2001年8月,已經有3個劫機犯引起了警方的關注,但并沒有把他們視為團伙,根據他們買機票的時間以及買同一個航班等信息,這些可疑的恐怖分子原本應該引起警方的高度重視。吸取了這些教訓,現在國外的反恐,背后都有大數據在進行支撐。
再看看大數據在其他生活方面的應用。
大家每天打出租車,已經習慣了使用滴滴打車等軟件,因為這些軟件采用大數據技術,經過各種計算,能將行程狀況、乘客的愛好和拼車習慣等信息更精準地進行匹配,從而找到最合適的線路。
有人曾經根據百度上搜索詞的信息來推測某地發生了流感。如果在百度上有很多人搜索和流感相關的詞匯,并且集中出現在某個區域的話,就可以基本判斷那個地區的流感比較集中,有關部門就能針對性地部署對策。還比如,美國每周會對谷歌的搜索詞進行分析,然后發布一個失業報告,計算出這一周的失業率是上升還是下降,因為失業的人會在網上搜索和別人不一樣的內容,像我怎樣申請救濟、我怎么找工作、我的社保怎么辦之類問題,根據這些搜索詞來分析,結果往往非常精準。
阿里小貸服務,是大數據催生新業務的典型。阿里在做淘寶時,發現沉淀下來很多電商的數據,比如這家淘寶店主過去幾年做得好不好,現在是在上升期還是下降期,這些都可以從這家店的所有賬目流水中得知。如果這個淘寶店主想去銀行貸款,大銀行對這種小店主基本上是不提供貸款的,或者貸款成本很高。但是通過大數據,阿里發現自己對這個店主知根知底,知道他所有的流水數據,只要用大數據建一個模型,就能立刻算出這個淘寶店主的信用風險是高還是低。于是,阿里巴巴后來就催生出了芝麻信用業務,全程零人工介入,由電腦放貸,這在銀行是不可能操作的。運行下來的數據顯示,阿里小貸服務的壞賬率低于1%,遠遠低于銀行的壞賬率。
再進一步,從企業信用發展到個人信用。根據消費者在淘寶上花錢的情況,甚至包括其朋友圈里其他朋友的花錢情況,從理論上說,信用好的人,他的朋友信用也不錯,利用這些信息就可以打出每個人的個人征信分數。芝麻信用好的人,出差住旅館不需要押金,離店不需要查房,去很多國家能免簽證,這樣,信用的概念也就慢慢進入了我們的生活。
“算”出來的人工智能
最近有一個刷屏的新聞,沙特授予了機器人索菲亞公民身份。在新聞發布會上,有人問了機器人一個問題:你怎么看待人?機器人反問道:你們人怎么認為自己不是機器人呢?這說明人工智能已經離我們越來越接近了。
什么是人工智能?其實很簡單,人工智能就是通過大數據和大計算解決一些本來是人做的而機器不會做的事情。
歷史上留下很多數據,包括各種文檔、書、視頻、文獻,還有采集來的數據,機器具備了一定的學習能力以后,經過一定的算法,就可以形成各種各樣的智能應用。大家耳熟能詳的阿爾法狗(AlphaGo),就是利用數據開發的智能應用,所以下圍棋下得很厲害。
如今,人工智能的應用非常廣泛。
比如,智能交通。大家外出時經常使用高德、百度地圖,它會告訴你哪條路是堵的,哪條路是暢通的。
現在杭州正在試點“城市大腦”,就是在交通信號燈上安裝了很多聯網的裝置,把數據采集回來,這樣就可以利用這些大數據,開發“互聯網信號燈”,從而更好地控制信號燈以及信號燈的用時長短,有效地降低交通擁堵。試點下來,城市的擁堵指數可以降低到10%。
大家一定聽說過智慧城市,其實所謂的智慧城市,就是運用信息和通信技術手段感測、分析、整合城市運行核心系統的各項關鍵信息,從而對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智能響應。通過在城市里大量安裝傳感器,可以搜集到很多人活動的軌跡信息,比如什么時候坐地鐵的人最多,某條交通干道一天24小時的人流軌跡等等,把這些信息采集起來,進行大數據分析,可以實現城市智慧式管理和運行,提高政務效率,進而促進城市的和諧、可持續成長。
人工智能也在進行金融方面的探索。比如原先要研究一家企業,必須讀這家企業過去的財報,每一年都有五六百頁的財報,工作量很大。現在的做法是,讓計算機把財報中的內容進行提煉,用各種圖表的形式展示出來,包括這家公司和其他公司的比較,公司自己過去幾年的業績比較,再從簡單的數字型分析進入到非結構化的深入分析。
在醫療保健領域,人工智能深度學習的能力,最近幾年從圖像識別和語音識別開始形成了突破。如今國外有一些成熟的圖像識別數據集,已經具有非常準確的識別率。在疾病診斷方面,可以拿著X光片、CT片來診斷癌癥,這在近期很有可能形成新的突破。
在電商零售業,現在很多電商企業像亞馬遜等,每天在倉庫里跑來跑去的都是機器人,公司日常的管理、運輸、退貨,機器就可以解決了。甚至客戶服務也是由聊天機器人擔任,等回答不了消費者的問題時,才會自動轉接人工服務。
教育領域的人工智能發展同樣非常迅速。現在的英語語法人工評測、普通話考試等,都可以由人工智能完成。比如一位老師要參加普通話考試,她的面前就是一臺能夠進行語音識別的機器,能對她所說的普通話逐一進行打分。學生學習英語,也可以用人工智能來評價其語法是否規范,還可以判斷一個人的發音更像是中國式英語、美國式英語,還是更像英國式英語,這個人工智能可以判斷。可以說在教育領域,人工智能在很多方面取得了成功。
目前,對于一個人的自然語言的評判,人工智能還不是很成熟。就現在來說,人工智能能夠做到理解你說的話,但如果要和你真正地對話,可能還需要10年以上的時間。
強人工智能約2045年登場
人工智能的發展歷程曾經起起落落,其中有過兩次大的低谷。
因為要讓機器模擬人的智能,科學家們先后從兩個方向入手研究。一部分科學家研究人腦是怎么工作的,也就是從神經科學入手研究;另一部分科學家則從數學的角度入手,從統計模型來進行各種預測、歸類。兩次低谷都是由于技術發展遇到了一定的瓶頸、計算能力跟不上而引起的。
最近幾年人工智能又一次在世界范圍內大熱,這次人工智能標志性的技術是深度學習的發展,包括阿爾法狗的勝利、各種無人駕駛汽車、各種圖像識別和語音識別的發展,都是和深度學習能力相關的。
但是,無論如何,我認為我們現在還是處在弱人工智能的階段。什么是弱人工智能的階段呢?比如說,阿爾法狗下棋可以下贏世界冠軍,但是如果讓它看圖識別,它還不如一個3歲的小孩。你給3歲的小孩看一張熊貓的圖片,告訴他這是熊貓,然后你帶他去動物園看熊貓,他一眼就知道這是熊貓了。但如果是機器人的話,你得給他看成千上萬張熊貓的照片,它才能知道這是熊貓。
所謂的強人工智能,就是擁有自我進化能力的機器人。比如,谷歌讓人工智能來進行人工智能程序的開發,寫出一些很簡單的程序,以此來了解人工智能以后會往哪里發展,這種做法是可以產生進化能力的。
我認為,從強人工智能到超人工智能的進展速度會越來越快,一旦人工智能的腦力發展到一定程度之后,可能會以小時、以分鐘為單位,迅速進化成為像神一樣的超級人物。強人工智能發生的時間點,我認為可能會在2045年左右,就像特斯拉的創始人馬斯科所言,強人工智能發展到一定的階段會產生極點,會發生人類不可控的事情,所以必須提前做出規劃和限制。
有人會問,為什么是2045年?因為人腦的計算能力和超級計算機天河二號差不多,持續計算速度達到每秒3.39億億次。根據現在的發展速度,到2025年,天河二號可以裝到你面前的筆記本電腦里。再聯系我一開始說的話,每一個創業公司都可以花很低的錢進行大體量的云計算,所以再過20年,到2045年,人類的進步將是天翻地覆的,20年之后人工智能會發生什么樣的變化真的很難說。
最后我總結一下,用大數據可以驅動整個人工智能的進化,不是機器的進化,而是說我們的生活、我們的工作,用數據驅動,用智能演進。
來源:解放日報\新華網