您的當前位置: 首頁  >> 資訊動態 >> 騰訊新聞 

騰訊大數據回答2019:鵝廠開源先鋒,日均計算量超30萬億,

發布時間:2019-12-31

乾明 發自 騰訊匯

量子位 報道 | 公眾號 QbitAI

開源,開源,開源。

這就是騰訊2019年技術領域最直觀的變化。

最新代表事件,來自于騰訊首個開源的AI項目Angel,完成3.0版本進化后,得到全球技術專家認可,從開源基金會LF AI畢業,成為業內頂級AI開源項目。

這是中國首個得此認可的項目,消息傳來自是引發好評熱議。不過,這只是騰訊過去這一年開源成績的注腳之一。

過去一年,騰訊開源勢頭愈發兇猛。截止12月份,對外開源項目超過92個,覆蓋所有BG(事業群),微信、騰訊云、大數據、游戲、AI、安全等業務都在其中,累計獲得超27萬標星,贏得一片贊譽。

騰訊已然成為全球開源大廠之一。在這其中,騰訊大數據貢獻不小。

騰訊業務的技術支撐方,騰訊大數據接連將自身核心組件開源,推動騰訊走向中國大數據領域開源最全面的廠商。

騰訊數據平臺部總經理、AMS平臺總經理、智慧零售戰略合作部總經理蔣杰說,接下來將會持續推進,將整個大數據平臺的所有東西全部開源。

為什么要如此“激進”開源?具體到業務中,他們發展如何?又有怎樣的開源邏輯?

蔣杰對過去一年的總結回答,能夠給出參考答案。

△ 蔣杰

作為騰訊開源先鋒,騰訊大數據的回答,也傳遞著整個騰訊的開源策略與邏輯。所以鵝廠開源如何,不妨看下騰訊大數據。

開源底氣:每日數據計算量超 30 萬億

2019年,是騰訊大數據平臺成立的第十個年頭,已經從零發展成為了整個集團業務的關鍵支撐:

每天有 1500 萬的分析任務、30 萬億次的實時計算量,并且每天數據接入條數達 35 萬億條數據。基于騰訊云的分布式機器學習平臺,能支撐 1 萬億維度的數據訓練。

為什么能夠做到這一點?來自于強大的技術實力。騰訊官方說法,經歷10年發展,大數據平臺已經建立起了“大數據 +AI”雙引擎技術架構,立身于行業第一梯隊。

尤其是核心項目之一騰訊第三代計算平臺Angel,發展到3.0版本之后,已經能支持萬億維度數據,同樣也可以兼容 Spark、PyTorch、TensorFlow 等生態,進一步降低了使用門檻,可擴大了兼容性。

雖然只需幾句話,就能描述出系統概況,但想要打造這樣一個系統,并不簡單。

“整個過程中,你會遇到網卡的瓶頸,存儲瓶頸,包括丟數據各種問題,”蔣杰說,“做系統是靠踩的一堆坑,有血的教訓,一堆故障,才慢慢磨煉出來的。”

蔣杰解釋稱,對于騰訊這樣體量的公司,也是如此。其開放出去的能力和技術,更是經歷了很多考驗。

原因也很簡單,別人在你這踩坑了, 還會對你有信任感嗎?“我們想要當領先者,但不是先烈,”蔣杰說。

如何做?他給出了一個關鍵詞:“價值驅動”。

平臺的發展不是閉門造車,而是跟著業務發展來發展,基于數據價值的驅動來演進。整個過程,是技術依賴于業務成長,技術回過頭去反哺業務發展。

這也是騰訊大數據10年發展的路徑。

從引進到自研再開源:騰訊大數據迎來轉折點

從2009年開始,騰訊大數據平臺經歷離線計算、實時計算與機器學習三個階段。

第一階段,基于開源的Hadoop體系,離線計算平臺,主要發力規模化。主要的業務導向是替代傳統的數據倉庫,做基于報表的服務。

這一階段持續了3年,實現了從關系型數據庫到自建大數據平臺的全面遷移。

但到了2012年左右,移動互聯網開始火爆起來,用戶特征與用戶畫像方面的數據進一步豐富。

電商商品推薦,新聞的推薦等算法對數據平臺提出了更高要求,第一階段只有T+1的報表顯然不夠用,需要小時級、分鐘級、秒級的實時監控。

因此,原來的Hadoop轉向Spark和Storm體系,在吸收開源技術的基礎上,結合騰訊自身的需求進行重寫,提供實時報表,實時查詢、實時監控等支持。

并開始了探索流式計算、秒級采集系統的建設,構建企業級的實時數據分析體系。

這一階段同樣是持續了3年。蔣杰說,這一階段完成后,騰訊大數據能力就已經位于國內第一梯隊了。

到了2015年,數據量進一步增長,人群特征維度更多,廣告推薦體系出現了一定的瓶頸。大數據平臺向第三階段發展,建設機器學習平臺,支持騰訊各業務數據挖掘的需求。

并于2016年推出了自研機器學習平臺Angel,專攻復雜計算場景,可進行大規模的數據訓練,支撐內容推薦、廣告推薦等AI應用場景,建立起了“大數據 +AI”雙引擎技術架構。

整個過程中騰訊大數據提升了集群可擴展性,相對于原生調度器性能提升150倍,2016 年,騰訊打破 Sort Benchmark 四項世界紀錄,標志著算力已經達到世界領先水平。

從業務中來,到業務中去,形成了騰訊大數據平臺技術迭代的循環。

得益于開源,回饋于開源,是騰訊大數據甚至騰訊在技術社區中循環,也是其不斷推動開源的驅動力之一。

全力打破數據墻,開源中向第四代大數據平臺迭代

2019年,也是騰訊大數據平臺第四代升級的元年。

蔣杰介紹稱,騰訊正在研究以批流融合、ABC融合、以及數據湖和聯邦學習為方向的下一代大數據平臺的研究。

同樣,這一平臺的迭代也是來自于業務價值驅動——數據覆蓋面更廣更大,數據安全和隱私保護成為新的問題。

這背后也隱藏著大數據行業最大的障礙:數據墻。

“把數據共享出來,其實把自己的后背交給別人,誰也不愿意,這是最大的困難。”蔣杰說。

這也是環境使然,過去一年,數據泄露席卷各行各業,從金融保險、教育、醫療、科技到政府無一幸免,規模甚至達到十幾億。

另一方面,歐洲發布《通用數據保護條例》之后,整個行業對數據保護的重視度越來越高。

“不在共享情況下能夠得到共享,聯邦學習是一個方向。我們希望通過混合部署,漂移計算,加上整個聯邦學習,構建嚴格的安全管控體系,打破這個數據墻。”

業務價值已經明確, 騰訊大數據平臺也開始展開了行動。蔣杰表示,明年將會把聯邦學習落實到場景中。與此同時,相關的研究成果也會同步開源出來。

鵝廠開源忙,大數據平臺為先鋒

所以騰訊為何開源?騰訊大數據的2019,能夠給出部分答案:

首先,騰訊大數據早期發展得益于開源項目,從第一階段的Hadoop到第二階段的Spark等等,開源項目都提供了幫助。

其次,騰訊大數據在發展過程中,技術實力快速發展,技術實力能夠拿出來,給更多的人使用,從而讓社區不再重復造輪子踩坑。

這是具體業務層面上的考慮,但提高視角,放到整個騰訊甚至整個行業來說,又能得到不同角度的答案。

開源協同是騰訊當下最重要的技術戰略之一。

對于騰訊來說,內部的開源協同,實際上是對最底層和共性技術能力的一次梳理和拉通,一方面是減少重復造輪子,另一方面提升公司的研發效能和運營效率。

在內部協同共建的基礎上,騰訊在推動更底層、更重磅的技術對外開放,不斷完善開源治理,打造開發者共建的生態。

2019年,由騰訊大數據主導的協同小組Oteam,共建了一個名為“天穹”的大數據項目,將騰訊六大事業群的大數據相關的系統做了統一,希望打造成一個具有統一技術棧的公司級大數據平臺體系。

蔣杰介紹說:“一項開源的技術能夠有良好的發展,常常需要背靠一個強大的公司,具有一定的經濟實力和良好的業務發展。騰訊有強大的業務支撐,這使得我們能夠去投入研發最好的技術,走在行業的最前沿。

目前,騰訊內部已協同的項目橫跨了各個技術領域,經過海量用戶驗證。騰訊正在源源不斷向開源社區輸出優質開源項目。

今年8月份,馬化騰首次對外談起騰訊開源,進一步表明了騰訊對待開源的態度:

騰訊希望在科研領域投入更多力量,把“ 科技向善”納入公司新的使命與愿景。我們將通過內外部開放源代碼等方式,積極參與“ 全球科技共同體”的共建。

當然,對于騰訊來說,開源也是戰略的體現,不僅僅在于“科技向善”愿景的落實,更有布局產業互聯網的考慮。

通過有價值的開源項目,會吸引更多的用戶加入騰訊生態,推動機器學習和人工智能的廣泛應用。

騰訊開源也在與騰訊云緊密結合,為開發者提供更多便利的基礎服務、工具和開源項目。

目前,騰訊已經把網絡、存儲、數據庫等IaaS能力,大數據、機器學習等PaaS的能力,以及上層的圖像、語音、NLP、BI等SaaS能力,通過騰訊云對外開放。

小爭爭事,大爭爭勢,起于2010年的騰訊開放戰略,在2020年到來之時,也變得愈發成熟,騰訊的格局也變得越來越大。

— 

AI內參|把握AI發展新機遇

拓展優質人脈,獲取最新AI資訊&論文教程,歡迎加入AI內參社群一起學習~

跟大咖交流 | 進入AI社群

量子位 QbitAI · 頭條號簽約作者

?'?' ? 追蹤AI技術和產品新動態

喜歡就點「在看」吧 !

文章來源:http://www.sohu.com/a/363868551_610300?spm=smpc.null.fd-news.26.1577778943305pthvcJh

免責聲明:此文為轉載文章,新聞文字、圖片來源于互聯網,如有侵犯,請及時通知我們,本站將在第一時間及時刪除。轉載目的在于傳遞更多信息及用于網絡分享,并不代表本站贊同其觀點和對其真實性負責,也不構成其他建議。

< <上一篇:騰訊云與木浪云達成合作,加速打造云存儲服務生態

下一篇:2019新國貨盛典“國貨來潮”,騰訊以數字化能力助推本土品牌> >

丨 首頁 丨 關于盤古 丨 產品介紹 丨 營銷案例 丨 資訊動態 丨 聯系我們 丨

咨詢電話:028-86086820      投訴電話:  028-86086814
地址:成都市錦江區東御街19號茂業天地44F 成都市錦江區人民東路6號四川航空廣場35樓
   重慶市九龍坡區謝家灣華潤大廈34F   海口市美蘭區國興大道11號國瑞城B座西塔12A07

微信二維碼
微博二維碼

Copyright?2019 成都盤古互動廣告有限公司 版權所有

赌大小只赢不输方法