亚洲日韩高清在线亚洲专区,国产黄在线观看免费观看不卡

英特爾第三代至強(qiáng)處理器解決AI難題

發(fā)布時(shí)間：2021-05-27 17:13:52

移動(dòng)互聯(lián)網(wǎng)“早古”時(shí)期，普通人因?yàn)槭杖氩罹鄦栴}而無法做到人手一部智能手機(jī)，從而導(dǎo)致數(shù)字鴻溝。同樣，在當(dāng)前這個(gè)AI，也就是人工智能扮演越來越關(guān)鍵作用的時(shí)代，企業(yè)也站在了類似的抉擇交接線上——是否有足夠的實(shí)力或能力擁抱智能化？而這個(gè)問題的成本，可就不是一個(gè)小小的智能手機(jī)了。因缺少AI人才、技術(shù)積累或財(cái)力支持而難以靠自身力量完成AI基礎(chǔ)設(shè)施建設(shè)的企業(yè)，在智能化轉(zhuǎn)型的過程中正將面臨這樣的智能化鴻溝，能否破解，很可能會(huì)關(guān)乎新十年中它們的命運(yùn)走向。

-掃碼關(guān)注-

億玖服務(wù)器定制

聯(lián)系電話：13310806067

如何消除智能化鴻溝？

要解決問題，就要先精確定位問題所在。一方面，構(gòu)建AI能力對(duì)于普通企業(yè)來說，IT基礎(chǔ)設(shè)施維護(hù)、AI框架搭建、訓(xùn)練和推理、硬件和軟件、人才和巨額算力成本等這些“夯地基”的事情需要從零做起，然而大部分企業(yè)，尤其是傳統(tǒng)行業(yè)企業(yè)并沒有相關(guān)經(jīng)驗(yàn)；另一方面，智能化轉(zhuǎn)型又迫在眉睫，企業(yè)需要快速讓自己具備AI能力，才能趕上不斷變化的需求。

企業(yè)在AI應(yīng)用開發(fā)和使用各階段可能遇到的挑戰(zhàn)，雖然不全，但已足夠“挑戰(zhàn)”

包括那些有一定的AI人才、技術(shù)積累與創(chuàng)新能力，但仍不足以支撐自身智能化轉(zhuǎn)型的企業(yè)在內(nèi)，大家都在尋找一種功能全面、部署便捷且性價(jià)比高的法子，來幫助它們快速完成AI能力的構(gòu)建和部署。

這就給了云服務(wù)提供商大展身手的機(jī)會(huì)，通過輸出快捷、高效、實(shí)惠的AI云服務(wù)，幫助條件和實(shí)力不足的企業(yè)快速部署和實(shí)踐AI應(yīng)用，它們可以做到既惠人，又利已。

意外！CPU成AI云服務(wù)熱門選擇

緊迫的需求，已經(jīng)在過去數(shù)年催生了眾多針對(duì)AI的云服務(wù)和產(chǎn)品，IaaS和PaaS級(jí)別的服務(wù)是主流，例如AIaaS (AI as a Service)、AI 在線服務(wù)、增強(qiáng)型 IaaS、企業(yè)級(jí)AI一體機(jī)，深度學(xué)習(xí)云平臺(tái)等等，硬件搭配也是多種多樣，例如基于CPU、GPU、TPU、NPU、FPGA等等，都在為企業(yè)AI轉(zhuǎn)型提供包括基礎(chǔ)設(shè)施構(gòu)建及優(yōu)化、AI應(yīng)用開發(fā)和部署，以及AI 模型訓(xùn)練與推理效能優(yōu)化在內(nèi)的多種支持。

有趣的是，CPU作為通用處理器，在AI云服務(wù)的搶眼程度，并不亞于專用的AI加速芯片。通過實(shí)際應(yīng)用分析，我們不難發(fā)現(xiàn)，如果不是專注于AI算法模型訓(xùn)練和開發(fā)的企業(yè)，大多數(shù)企業(yè)使用AI時(shí)其實(shí)更偏推理型的應(yīng)用。對(duì)他們來說，基于CPU平臺(tái)的云服務(wù)，特別是集成了可加速AI應(yīng)用的AVX-512技術(shù)和深度學(xué)習(xí)加速技術(shù)的英特爾^® 至強(qiáng)^® 平臺(tái)的AI云服務(wù)，其實(shí)在很多應(yīng)用場(chǎng)景中都足以應(yīng)對(duì)實(shí)戰(zhàn)需求，且不論對(duì)于他們，還是云服務(wù)提供商而言，部署都更快、更便捷，上手門檻也低。

就這樣，可能與大家的印象相悖，CPU成為了很多云服務(wù)提供商輸出，以及企業(yè)采用AI云服務(wù)時(shí)的熱門選擇，這使得以CPU為基礎(chǔ)設(shè)施的AI云服務(wù)異軍突起。

用CPU做AI云服務(wù)，集成AI加速是前提

如前文提到，基于CPU的云服務(wù)要受歡迎，并不是僅僅做好通用計(jì)算任務(wù)就夠了，首先就要針對(duì)AI應(yīng)用在硬件上集成特定的加速能力。

作為老牌CPU廠商的英特爾，早在2017年就于第一代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器上導(dǎo)入了可以加速浮點(diǎn)運(yùn)算（涵蓋AI運(yùn)算）的AVX-512技術(shù)；而后又在2019年推出的第二代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器上集成了可以加速INT8的英特爾^® 深度學(xué)習(xí)加速技術(shù)，專攻推理優(yōu)化；2020年和今年，分別面向多路和單、雙路服務(wù)器的第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器依次亮相，后者靠INT8加速主攻推理，前者則通過同時(shí)支持INT8和BF16加速，兼顧了CPU上的AI訓(xùn)練和推理任務(wù)。

2021年面向單路和雙路服務(wù)器的全新第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器的主要優(yōu)勢(shì)，包括再次提升AI推理性能

CPU有了AI加速能力，用它來構(gòu)建AI云服務(wù)的根基就已奠定。但為了充分發(fā)揮出這些硬件AI加速能力，英特爾還同步提供了一系列開源AI軟件優(yōu)化工具，包括基礎(chǔ)性能優(yōu)化工具oneDNN，可幫助AI模型充分量化利用CPU加速能力、預(yù)置了大量預(yù)優(yōu)化模型并能簡(jiǎn)化它們?cè)贑PU平臺(tái)上部署操作的OpenVINO?，以及可以在現(xiàn)有大數(shù)據(jù)平臺(tái)上開展深度學(xué)習(xí)應(yīng)用，從而無縫對(duì)接大數(shù)據(jù)平臺(tái)與AI應(yīng)用的Analytics Zoo等。英特爾還將oneDNN融入了TensorFlow、Pytorch等主流AI框架，將它們改造成面向英特爾架構(gòu)優(yōu)化的AI框架。

通過這些舉措，英特爾架構(gòu)CPU平臺(tái)加速AI應(yīng)用的軟硬兩種能力就有了“雙劍合璧”的效果。而英特爾和云服務(wù)提供商合作伙伴的實(shí)踐，也正是基于此展開的。

CPU AI云服務(wù)第一式，軟硬打包上手快

得益于英特爾提供的全面AI加速軟硬件組合，多數(shù)云服務(wù)提供商無需做更多調(diào)整和優(yōu)化，就可迅速打造出針對(duì)AI的基礎(chǔ)設(shè)施即服務(wù)或AI云主機(jī)產(chǎn)品。簡(jiǎn)單來說，就是將集成AI加速能力的英特爾^® 至強(qiáng)^® 可擴(kuò)展平臺(tái)與我們提到的軟件工具，例如oneDNN或面向英特爾架構(gòu)優(yōu)化的AI框架軟硬打包，就可快速形成易于部署和擴(kuò)展的AI云主機(jī)鏡像。

國(guó)內(nèi)有云服務(wù)提供商早在2017年就進(jìn)行了類似的嘗試，通過使用英特爾優(yōu)化軟件，它激活了英特爾^® 至強(qiáng)^® 平臺(tái)的AI加速潛能，并在部分應(yīng)用場(chǎng)景實(shí)現(xiàn)了可與GPU相媲美的推理性能。

如果僅有性能優(yōu)化還不夠，還需要更快的模型部署能力，那就可以像CDS首云一樣導(dǎo)入OpenVINO?。它通過英特爾^® 至強(qiáng)^® 可擴(kuò)展平臺(tái)、高性能 K8S 容器平臺(tái)和OpenVINO Model Server這三者的組合大幅簡(jiǎn)化了AI模型的部署、維護(hù)和擴(kuò)展。性能實(shí)測(cè)結(jié)果也表明，OpenVINO?不僅在用戶并發(fā)接入能力上優(yōu)于首云此前采用的AI框架，在推理應(yīng)用的時(shí)延等關(guān)鍵性能指標(biāo)上也有良好表現(xiàn)。

CDS首云AI云服務(wù)方案架構(gòu)

CPU AI云服務(wù)第二式，深度優(yōu)化收益多

僅僅是導(dǎo)入英特爾已經(jīng)就緒的AI軟硬件組合，就已能輸出令人滿足的AI云服務(wù)了，那么如果是和英特爾在AI云服務(wù)的算法及模型上進(jìn)行更深入的優(yōu)化，又會(huì)有什么驚喜呢？像阿里云這樣的頭部云服務(wù)提供商就通過實(shí)戰(zhàn)給出了答案。

以阿里云為例，其機(jī)器學(xué)習(xí)平臺(tái)PAI在與英特爾的合作中，利用了第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器支持的bfloat16加速，來主攻PAI之上BERT性能的調(diào)優(yōu)，具體來說就是以經(jīng)過優(yōu)化的Float32 Bert模型為基準(zhǔn)，利用BF16加速能力優(yōu)化了該模型的MatMul算子，以降低延遲。測(cè)試結(jié)果表明：與優(yōu)化后的FP32 Bert模型相比，英特爾^® 至強(qiáng)^® 平臺(tái)BF16加速能力能在不降低準(zhǔn)確率的情況下，將BERT模型推理性能提升達(dá)1.83倍。

阿里云PAI BERT 模型優(yōu)化方案

CPU AI云服務(wù)第三式，扎根框架打根基

如果說從提供軟硬協(xié)同的基礎(chǔ)平臺(tái)到定向深度優(yōu)化算法，算是AI云服務(wù)在優(yōu)化程度上的邁進(jìn)，或者說云服務(wù)提供商與英特爾在AI云服務(wù)構(gòu)建和優(yōu)化上的深化合作的話，那么如果有云服務(wù)提供商能在深度學(xué)習(xí)框架這個(gè)AI基石上與英特爾開展合作，那是不是會(huì)更具意義呢？

為這個(gè)問題輸出答案的是百度，它的開源深度學(xué)習(xí)平臺(tái)“飛槳”先后結(jié)合第二代和第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器在計(jì)算、內(nèi)存、架構(gòu)和通信等多層面進(jìn)行了基礎(chǔ)性的優(yōu)化。其結(jié)果也是普惠性的——優(yōu)化后的飛槳框架能夠充分調(diào)動(dòng)深度學(xué)習(xí)加速技術(shù)，可將眾多AI模型，特別是圖像分類、語音識(shí)別、語音翻譯、對(duì)象檢測(cè)類的模型從FP32瘦身到INT8，在不影響準(zhǔn)確度的情況下，大幅提升它們的推理速度。

英特爾深度學(xué)習(xí)加速技術(shù)可通過1條指令執(zhí)行8位乘法和32位累加，INT8 OP理論算力峰值增益為FP32 OP的4倍

例如在圖像分類模型ResNet50的測(cè)試中，飛槳搭配英特爾今年發(fā)布的全新第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器對(duì)其進(jìn)行INT8量化后，其推理吞吐量可達(dá)FP32的3.56倍之多。

如此性能增幅，再加上CPU易于獲取、利用和開發(fā)部署的優(yōu)勢(shì)，讓飛槳的開發(fā)者們可借助AI框架層面的優(yōu)化，更加快速、便捷地創(chuàng)建自己可用CPU加速的深度學(xué)習(xí)應(yīng)用。而為了給企業(yè)開發(fā)者們提供更多便利，百度還推出了EasyDL和BML（Baidu Machine Learning）全功能AI開發(fā)平臺(tái)，通過飛槳基于全新第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器的優(yōu)化加速，來為企業(yè)提供一站式AI開發(fā)服務(wù)。

百度飛槳開源深度學(xué)習(xí)平臺(tái)與飛槳企業(yè)版

展望未來，跨越智能化鴻溝不僅靠算力

前文CDS首云、阿里云和百度的實(shí)例，可以說是充分反映了用CPU做AI云服務(wù)的現(xiàn)狀，而這些云服務(wù)也正是為當(dāng)前希望跨越智能化鴻溝的企業(yè)設(shè)計(jì)的。當(dāng)然，它們也會(huì)持續(xù)演進(jìn)，比如說隨著未來AI技術(shù)的進(jìn)一步發(fā)展，特別是大數(shù)據(jù)與AI融合帶來的新需求，不論是用CPU還是專用加速器，不論是企業(yè)自建AI基礎(chǔ)設(shè)施和應(yīng)用，還是云服務(wù)提供商輸出的AI云服務(wù)，都會(huì)在數(shù)據(jù)存儲(chǔ)而非算力上面臨越來越多的挑戰(zhàn)。

畢竟，算力、算法和數(shù)據(jù)是并駕齊驅(qū)的“三駕馬車”，隨著數(shù)據(jù)規(guī)模進(jìn)一步暴增，數(shù)據(jù)存儲(chǔ)也將對(duì)AI的部署和應(yīng)用帶來更多挑戰(zhàn)。

好消息是，國(guó)內(nèi)的云服務(wù)提供商也早已和英特爾就此展開了前瞻創(chuàng)新，例如百度智能云早在2019年就推出了ABC（AI、Big Data、Cloud）高性能對(duì)象存儲(chǔ)解決方案，能利用英特爾^® 傲騰? 固態(tài)盤的高性能、低時(shí)延和高穩(wěn)定來滿足AI訓(xùn)練對(duì)數(shù)據(jù)的高并發(fā)迭代吞吐需求。

值得一提的是，英特爾在今年發(fā)布全新第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器時(shí)，也帶來了與其搭檔的英特爾^® 傲騰? 持久內(nèi)存200系列和英特爾^® 傲騰? 固態(tài)盤P5800X。

與全新第三代英特爾^® 至強(qiáng)^® 可擴(kuò)展處理器搭配使用的英特爾^® 傲騰? 持久內(nèi)存和英特爾^® 傲騰? 固態(tài)盤新品

相信未來會(huì)有更多專攻AI應(yīng)用場(chǎng)景的存儲(chǔ)系統(tǒng)導(dǎo)入這些新品，把更多數(shù)據(jù)存放在更靠近CPU或其他加速器的地方，從數(shù)據(jù)就緒或“供給”層面提升AI推理和訓(xùn)練的性能。而提供這些AI優(yōu)化型存儲(chǔ)系統(tǒng)或服務(wù)的，多數(shù)也很可能是技術(shù)實(shí)力雄厚的云服務(wù)提供商們，這樣一來，用戶就不用擔(dān)心在應(yīng)對(duì)智能化鴻溝時(shí)再遇到大數(shù)據(jù)和AI對(duì)接的難題了。