1 引言
ChatGPT 是由 OpenAI 研發的一種語言 AI 模型,使用上億參數的大模型和海量語 料庫來生成語句,目前可以實現寫詩、撰文、編碼的功能。ChatGPT 廣受用戶歡迎, 短短五天注冊用戶數量便超過 100 萬,60 日月活破億。產業界如微軟、谷歌、百度 也對于 openAI 及其競品加大投入。
2 ChatGPT 引發人工智能投資熱潮
2.1 ChatGPT 是什么?
ChatGPT 是由 OpenAI 研發的一種語言 AI 模型,使用海量語料庫來生成與人類相 似的反應。ChatGPT 是基于 GPT(generativef pretrained’ transformer)架構搭建的, 主要用深度學習來生成連貫且具有意義的文字。這個模型使用了來自于網站、書本和社 交媒體的海量文字數據,因此也為 ChatGPT 在保證準確性和細節的同時,提供了廣泛 的對話反饋。對話反饋是 ChatGPT 的核心功能之一,也使它成為了實現聊天機器人或 其他對話型 AI 的理想技術。除對話功能外,ChatGPT 也具有實現各類語言相關任務的能力,包括文章精煉、翻 譯以及情緒分析等。以上各類語言能力在大規模的訓練數據和升讀學習架構下,使 ChatGPT 成為目前應用最為先進的語言模型之一??傮w上,ChatGPT 標志著自然語言處理(NLP)和對話 AI 領域的一大步,其高質 量文字產出能力在商業、研究和開發活動中提高用戶體驗的方向上非常有應用價值的。
圖片
截至目前,GPT 已經經歷了如下演化:1. GPT-1: 第一代 GPT 語言模型,發布于 2018 年。它有 1.17 億個參數,使用網頁 的文字數據進行訓練。2. GPT-2: 發布于 2019 年,具有 15 億個參數,使用的網頁文字數據量也遠大于前 一代。它已經可以生成高質量的文字,甚至完成翻譯、精煉文字等簡單任務。3. GPT-3: 發布于 2020 年,具有 1750 億個參數,使用網頁以及其他來源的文字進 行訓練。它已經可以進行擔任各類任務,被認為是語言模型領域的顯著突破。
2.2 ChatGPT 技術和傳統的 AI 有什么區別?
相比傳統 AI 算法,GPT 模型的區別在于通過海量參數,進一步提升了模型的精確 度。初代的 GPT 模型參數是 1.17 億,而 GPT2 的模型有 15 億個參數,參數增加了 10 倍之多。第三代的 GPT3 模型,參數達到了 1750 億,是 GPT2 參數的 100 倍。正是由 于參數的指數級提升,使得模型的使用效果大幅提升。而此類參數上億的模型,通常稱 之為“大模型”。GPT 模型基于 Transformer 架構,這是一種由谷歌的 Vaswani 等人于 2017 年引入 的神經網絡類型。Transformer 架構特別擅長對序列數據中的長距離依賴進行建模,這使 其非常適合自然語言處理任務。為了訓練 GPT 模型,OpenAI 使用了來自互聯網的大量文本數據,包括書籍、文章 和網站。該模型使用一種稱為無監督學習的技術進行訓練,這意味著它學會了在沒有人 類監督的情況下預測文本序列中的下一個單詞。GPT 模型能夠生成連貫和語法正確的文本,已被用于廣泛的自然語言處理任務,包 括語言翻譯、文本補全和文本生成。
Transformer 模型是一種用于自然語言處理的神經網絡模型。與傳統的循環神經網 絡(RNN)不同,Transformer 模型使用自注意力機制(self-attention)來處理輸入序列 中不同位置之間的依賴關系。Transformer 模型由編碼器和解碼器兩部分組成。編碼器將輸入序列中的每個單詞 表示為一個向量,并通過多層自注意力和前饋神經網絡來對輸入序列進行編碼。解碼器 則使用相同的自注意力和前饋神經網絡來生成輸出序列。在自注意力機制中,模型根據輸入序列中的所有單詞計算出每個單詞與其他單詞的 相關性,然后使用這些相關性加權求和得到每個單詞的表示向量。這種方法使得模型能 夠處理長序列和跨越序列中的依賴關系,從而提高了模型的性能。Transformer 模型已經在自然語言處理領域取得了很好的效果,包括機器翻譯、文 本摘要和問答系統等任務。它是目前最先進的語言模型之一,也是開發其他自然語言處 理模型的基礎。
2.3 ChatGPT 將給行業帶來哪些機會?
相比其他此前的人工智能技術與進展,ChatGPT 之所以引發關注,主要總結為以下 幾點:1) 從使用效果上,交流通暢,同時能夠實現寫詩、撰文、編碼的功能。2 月 1 日, 以色列總統艾薩克·赫爾佐格(Isaac Herzog)發表了部分由人工智能(AI)撰寫的 演講;2) 受用戶歡迎。短短 5 天,注冊用戶數就超過 100 萬。60 天月活破億。3) 商業模式產生變化。2023 年 2 月 2 日,美國人工智能(AI)公司 OpenAI 發布 ChatGPT 試點訂閱計劃。4) 產業界也表現出對 Chatgpt 的關注。表現為:1)1 月 23 日,微軟宣布向 ChatGPT 開發者 OpenAI 追加投資數十億美元;2)谷歌 3 億美元投資 Chatgpt 競品。3)百度將于 3 月發布類似 Chatgpt 的 AI 服務。由此帶來相關產業鏈的大變革:
1) 語音識別與自然語言處理行業快速發展:人工智能,也即解決像人一樣看、聽、思考的問題。因此,按照此維度來劃分,劃 分為計算機視覺、語音識別與自然語言處理及數據科學。早先,2020 年數據顯示,計算機視覺占比約 56.6%;語音識別與自然語言處理占比 約 35.6%。也即,在機器視覺領域的應用,相比自然語言處理,更為成熟,市場規模更 大。但隨著 ChatGPT 帶來的投資熱潮,與應用領域的不斷豐富,音頻與自然語言處理 的整體行業規模,有望迅速增長。
圖片
2) 激活產業鏈:整個人工智能的產業鏈包括算力、數據、算法乃至下游應用。算力與網絡:英偉達的研究表示,GPT-3 模型需要使用 512 顆 V100 顯卡訓練 7 個 月時間,或者使用 1024 顆 A100 芯片訓練長達一個月的時間。隨著各大科技廠商投入對 大模型的研發,勢必增加芯片、服務器等算力需求。同時,龐大的 AI 算力集群,又需要 高帶寬支撐數據傳輸。數據:數據采集、數據標注和數據質檢是較為重要的三個環節。從自然數據源簡單 收集取得的原料數據并不能直接用于有效監督的深度學習算法訓練,經過專業化采集、 加工形成的訓練數據集才能供深度學習算法等訓練使用,由此帶來數據服務需求。算法:相比傳統 AI 模型,大模型的優勢體現在:1)解決 AI 過于碎片化和多樣化 的問題;2) 具備自監督學習功能,降低訓練研發成本;3)擺脫結構變革桎梏,打開 模型精度上限。對于大模型算法的研發、優化,亦是投入的重點。下游應用:產業界一直以來都在尋求人工智能的應用領域、商業模式突破。隨著大 模型使用、人工智能算法精度提升,下游應用的擴展可期。
3 數據要素資源基礎,滿足大模型訓練需求
3.1 政策引導數據要素確權使用,掃清人工智能發展障礙
數據已成為五大核心生產要素之一。2020 年 4 月中共中央國務院《關于構建更加完善的要素市場化配置體制機制的意 見》中發布。這是數據作為新型生產要素首次在中央頂層文件中提出。而后,2022 年 4 月國務院《關于加快建設全國統一大市場的意見》中,進一步提到 加快培育數據要素市場,建立數據資源產權相關基礎制度。2022 年 12 月 9 日,財政部發布關于征求《企業數據資源相關會計處理暫行規定 (征求意見稿)》意見的函,具體提出了企業數據資源相關會計、處理的方式方法,進一 步掃清了數據要素市場建立、數據資源交易的障礙。當前,2022 年 12 月發布《關于構建數據基礎制度更好發揮數據要素作用的意見》, 是數據要素體系建設中,頂層關鍵文件,掃除了未來人工智能發展中需要使用數據的障 礙:1)建立保障權益,合規使用的數據產權制度;2)建立合規高效的場內外結合的數 據要素流通和交易制度。3)建立體現效率促進公平的數據要素收益分配制度。4)建立 安全可控彈性包容的數據要素治理制度。
數字經濟快速發展,數據要素成為重要戰略資源?!丁笆奈濉睌底纸洕l展規劃》 中指出,數字經濟是繼農業經濟、工業經濟之后的主要經濟形態?!兑巹潯吩O定了到 2025 年實現數字經濟核心產業增加值占 GDP 比重達到 10%的目標,涵蓋數據要素市場、產 業數字化、數字產業化、數字化公共服務、數字經濟治理體系五個方面。從 2015 年至 今,數字經濟平均增速持續高于 GDP 增速,2021 年數字經濟占 GDP 比重已經由 2015 年的 27%提升至 40%。
圖片
3.2 大數據管理能力需求提升
聯網設備高增之下,流量增長不可避免。根據思科的《年度互聯網報告》,到 2023 年,地球上的連網設備數量將是全球人口的大約三倍,從 2017 年的人均 2.4 臺提升至 3.6 臺。由于 IP 地址即網絡地址+主機地址,網絡站點所連接的 IP 數量也處于爆發的階 段。根據 IDC 的《中國物聯網連接規模預測,2020-2025》,僅我國物聯網 IP 連接量已 在 2020 年達 45.3 億,有望在 2025 年達到 102.7 億,CAGR 為 17.8%。由于 IP 地址 聯網后即產生數據流量, IP 地址的數量增長即代表全網數據也將繼續大增,對于現有 的網絡企業的承載能力提出了考驗。根據思科的《年度互聯網報告》,2022 年全球網絡 數據流量將達 799EB(1EB=十億 GB),同比增長 21%。我們認為,數據流量的增長, 有望直接帶動大數據產業的發展,而其中穩定優質響應快的數據庫性價比更高。
全球大數據市場存量巨大,軟件市場占比較高且增速快。根據 Wikibon 及沙利文研 究數據,全球大數據市場規模有望在 2022 年達 718 億美元,同比增速 11%;而其中全 球大數據軟件偉 286 億美元,同比增速 18%,約占大數據市場規模的 40%??梢哉J為, 軟件市場在大數據市場中,占據較大地位,而由于其增速高于大數據市場的整體增速, 其占比還將進一步提升。
圖片
3.3 數據標注,是 AI 模型的基礎
人工智能基礎數據服務助力 AI 訓練與調優,數據采集、數據標注和數據質檢是較 為重要的三個環節。從自然數據源簡單收集取得的原料數據并不能直接用于有效監督的 深度學習算法訓練,經過專業化采集、加工形成的訓練數據集才能供深度學習算法等訓 練使用,從某種程度上講,數據決定了 AI 的落地程度,因此,基礎數據服務應運而生。具體來看,基礎數據的服務流程圍繞著客戶的展開,為 AI 模型訓練提供可靠、可用的數 據,其包含五個環節,分別是 1)數據庫設計:訓練數據集結構設計;2)數據采集:獲 取原料數據;3)數據清洗:清洗殘缺、重復或者錯誤的數據;4)數據標注:幫助機器 認識數據的特征;5)質檢:各環節質量檢測和控制。
市場標注行業市場規模不斷擴大,圖像類和語音類需求占比超八成。從市場規模來 看,根據觀研天下統計,2021 年我國數據標注行業市場規模為 43 億元,2017 至 2029 年的 CAGR 為 23%;根據 IDC《2021 年中國人工智能基礎數據服務市場研究報告》, 預計中國 AI 基礎數據服務市場規模將在 2025 年突破 120 億元,近五年的 CAGR 達 47%。從市場收入結構來看,按數據類型劃分,基礎數據服務行業是市場需求可以分為 圖像類、語音類和自然語言處理類數據需求。根據觀研天下統計,2021 年我國數據標注 行業下游以圖像類和語音類需求為主,二者合計占比達 86%,其中,圖像類業務以智能 駕駛與安防為主,語音類以中英大大語種、中國本土方言以及外國小語種為主。
3.4 相關標的
1) 星環科技:平臺、數據庫集一身的數據要素稀缺標的
專注于分布式數據庫,技術水平全球領先。星環科技 2013 年成立于上海,是國內 大數據管理軟件領導者,已累計有超過 1,000 家終端用戶,且產品已落地以下知名機構 或其主要分支機構,金融行業包括中國銀行、浦發銀行、浙江農村商業聯合銀行等,政 府領域包括上海市大數據中心等,能源行業包括中國石油、南方電網等,交通行業包括 中國郵政集團、鄭州地鐵等,制造業包括湖南中煙等。公司在發展中經歷了多個重要節 點:1)公司 2013 年成立,隨即發布了大數據基礎平臺 TDH2.0 版本,并于次年推出 Inceptor 關系型分析引擎、Slipstream 實時計算引擎,實現數據湖、實時計算兩大熱點 功能;2)2014 年公司被 Gartner 列入 Hadoop 的主流發行版列表;3)2017 年起,公 司陸續發布新品,包括分析工具 Sophon、云產品 TDC、分布式分析數據庫 ArgoDB 和 分布式交易數據庫 KunDB。2022 年,公司已被 Gartner 評為圖數據庫管理的全球代表 廠商。
圖片
股權結構穩定,創始人保持控制權。發行人的控股股東、實際控制人為創始人孫元 浩,主要理由如下:(1)截至本招股說明書簽署日,孫元浩直接持有星環科技 12.3%的 股份,為公司第一大股東,且在報告期內持續為發行人第一大股東。(2)孫元浩與范磊、 呂程、佘暉及贊星投資中心簽署了《一致行動協議》,確認 自 2019 年 1 月 1 日起, 范磊、呂程、佘暉及贊星投資中心與孫元浩在發行人有關重大事項中保持一致行動,并 約定上述各方在無法達成一致意見時,為提高公司決策效率,在不損害孫元浩合法權益 及保障公司整體利益的前提下,應以孫元浩的意見作為各方的最終共同意見。孫元浩擔 任執行事務合伙人的贊星投資中心持有公司 8.3%的股份,孫元浩之一致行動人范磊、呂 程、佘暉分別持有公司 6.7%、1.7%、1.0%的股份。因此,孫元浩本人及通過《一致行 動協議》合計控制公司 30.0%的股份。(3)報告期內,孫元浩一直擔任發行人(及其前 身星環有限)的董事長及總經理,在發行人的董事會和日常管理決策中均能夠產生重大 影響。( 4)根據除孫元浩、范磊、呂程、佘暉及贊星投資中心以外的發行人其他股東的 書面確認,各方均認可孫元浩于報告期內作為發行人的實際控制人。
2) 海天瑞聲:人工智能基礎數據服務提供商,產品矩陣不斷豐富
自 2005 年成立以來,海天瑞聲始終致力于為 AI 產業鏈上的各類機構提供算法模型 開發訓練所需的專業數據集,目前已發展為人工智能領域具備國際競爭力的國內領軍企 業。公司研發生產的訓練數據覆蓋了智能語音、計算機視覺及自然語言處理三大 AI 核心 領域,實現了標準化產品、定制化服務、相關應用服務的全覆蓋,廣泛應用于人機交互、 智能家居、智能駕駛、智慧金融、智能安防、OCR 識別等多個應用場景。截至 2022 年 半年報,公司累計客戶量達 695 家。
公司產品應用領域不斷拓寬,下游客戶豐富。從應用場景來看,公司產品的應用場 景覆蓋了個人助手、語音輸入、智能家居、智能客服、機器人、語音導航、智能播報、 語音翻譯、移動社交、虛擬人、智能駕駛、智慧金融、智慧交通、智慧城市、機器翻譯、 智能問答、信息提取、情感分析、OCR 識別等多種應用場景。從下游客戶來看,公司的客戶為 AI 產業鏈上的各類機構,主要系:1)大型科技公司,阿里巴巴、騰訊、百度、 微軟等;2)人工智能企業,科大訊飛、商湯科技、??低暤?;3)科研機構,如中國 科學院、清華大學等。目前,公司的產品和服務已經獲得了阿里巴巴、騰訊百度、科大 訊飛、微軟、清華大學等國內外客戶的認可。
圖片
4 ChatGPT 帶來的變革——大模型算法
4.1 大模型時代的引言:Double Descent(雙下降)現象
隨著深度神經網絡的興起,人工智能進入統計分類深度模型時代,這種模型比以往 的模型更加泛化,可以通過提取不同特征值應用于不同場景。但在 2018 年-2019 年, 雙下降現象的發現打破了原有的人工智能發展格局。簡而言之,以往的數學理論表明, 隨著參數增多、模型增大,過擬合導致模型的誤差會先下降后上升,這使得找到精度最 高誤差最小的點成為模型調整的目標。而隨著人工智能算法算力的不斷發展,研究者發 現如果繼續不設上限的增大模型,模型誤差會在升高后第二次降低,并且誤差下降會隨 著模型的不斷增大而降低,通俗而言模型越大,準確率越高。因此人工智能發展進入了 大模型時代。
相比傳統 AI 模型,大模型的優勢體現在:1)解決 AI 過于碎片化和多樣化的問題,極大提高模型的泛用性。應對不同場景 時,AI 模型往往需要進行針對化的開發、調參、優化、迭代,需要耗費大量的人力成 本,導致了 AI 手工作坊化。大模型采用“預訓練+下游任務微調”的方式,首先從大量標 記或者未標記的數據中捕獲信息,將信息存儲到大量的參數中,再進行微調,極大提高 模型的泛用性。2)具備自監督學習功能,降低訓練研發成本。我們可以將自監督學習功能表觀理 解為降低對數據標注的依賴,大量無標記數據能夠被直接應用。這樣一來,一方面降低 人工成本,另一方面,使得小樣本訓練成為可能。3)擺脫結構變革桎梏,打開模型精度上限。過去想要提升模型精度,主要依賴網 絡在結構上的變革。隨著神經網絡結構設計技術逐漸成熟并開始趨同,想要通過優化神 經網絡結構從而打破精度局限變得困難。而研究證明,更大的數據規模確實提高了模型 的精度上限。
4.2 首要關鍵技術:Transformer 模型 GPT 模型利用
Transformer 模型作為特征提取器,是第一個引入 Transformer 的預 訓練模型。傳統的神經網絡模型例如 RNN(循環神經網絡)在實際訓練過程中由于輸入 向量大小不一、且向量間存在相互影響關系導致模型訓練結果效果較差。Transformer 模 型有三大技術突破解決了這個問題。首先 Transformer 模型的 Self-Attention(自注意力)機制使人工智能算法注意到輸 入向量中不同部分之間的相關性,從而大大提升了精準性。其次該模型采用屬于無監督 學習的自監督學習,無需標注數據,模型直接從無標簽數據中自行學習一個特征提取器, 大大提高了效率。最后,在做具體任務時,微調旨在利用其標注樣本對預訓練網絡的參 數進行調整。也可以針對具體任務設計一個新網絡,把預訓練的結果作為其輸入,大大 增加了其通用泛化能力。Transformer 模型的這些優點快速替代了傳統的神經網絡。
圖片
4.3 GPT 快速迭代,從 GPT1.0 迅速步入 3.5 時代
GPT:大型無監督語言模型,能夠生產連貫的文本段落。GPT-1 采用無監督預訓練 和有監督微調,證明了 transformer 對學習詞向量的強大能力,在 GPT-1 得到的詞向量 基礎上進行下游任務的學習,能夠讓下游任務取得更好的泛化能力。與此同時,不足也 較為明顯,該模型在未經微調的任務上雖然有一定效果,但是其泛化能力遠遠低于經過 微調的有監督任務,說明了 GPT-1 只是一個簡單的領域專家,而非通用的語言學家。
GPT-2 為了解決這一問題采用了多任務模式,其目標旨在訓練一個泛化能力更強的 詞向量模型,它并沒有對 GPT-1 的網絡進行過多的結構的創新與設計,只是使用了更多 的網絡參數和更大的數據集,GPT-2 的核心思想是當模型的容量非常大且數據量足夠豐 富時,僅僅靠訓練語言模型的學習便可以完成其他有監督學習的任務。所以雖然它驗證 了通過海量數據和大量參數訓練出來的詞向量模型能夠遷移到其它類別任務中而不需要 額外的訓練,但其任務表現并不好,還有大很提升空間。不過其表明了模型容量和數據 量越大,其潛能越大。于是 GPT-3 納入了海量參數:1750 億參數量還有超大的 45TB 的訓練數據。在大 量的語言模型數據集中,GPT-3 超過了絕大多數方法。另外 GPT-3 在很多復雜的 NLP 任務中例如閉卷問答,模式解析,機器翻譯等也很準確。除了這些傳統的 NLP 任務, GPT-3 在一些其他的領域也取得了非常好的效果,例如進行數學加法,文章生成,編寫 代碼等。
4.4 國內外 AI 大模型項目百舸爭流
除了 GPT-3 模型外,各大公司正在孵化的大模型項目數量也相當可觀。MT-NLG:微軟英偉達強強聯手,軟硬結合引領行業新景。2021 年 10 月 11 日,微 軟和英偉達推出由 DeepSpeed 和 Megatron 驅動的 Megatron-Turing 自然語言生成 模型(MT-NLG), 具有 5300 億個參數。MT-NLG 的參數數量是當時該類型最大模型 的 3 倍,并且在廣泛的自然語言任務中如閱讀理解、常識推理、自然語言推理、詞義消 歧等方面表現出較強的準確性?;?105 層 transformer 的 MT-NLG 在多個方面方面 改進了當時最先進模型,并為大規模語言模型在模型規模和質量方面設置了新標準。硬件方面,模型訓練是在基于 NVIDIA DGX SuperPOD 的 Selene 超級計算機上進 行的,實現的系統吞吐量為:420 臺 DGX A100 服務器上考慮了 5300 億參數模型(批 量大小為 1920 )的系統端到端吞吐量,迭代時間為 44 . 4 秒、GPU 113 萬億次/秒。
Switch Transformers:Google 推出的首個萬億級語言模型。相比 1750 億參數的 GPT-3,谷歌 Switch Transformers 則直接將該數值拉升至 1.6 萬億,且相比于 OpenAI 在 GPT-3 里所使用的 Sparse Attention,需要用到稀疏算子而很難發揮 GPU、TPU 硬 件性能的問題。Switch Transformer 不需要稀疏算子,可以更好的適應 GPU、TPU 等硬 件。
圖片
文心一言:百度集成 NLP 和 CV,多級體系覆蓋諸多領域。2022 年 11 月 30 日, 百度集團在 WAVE SUMMIT+2022 深度學習開發者峰會帶來了文心大模型的最新升級, 包括新增 11 個大模型,大模型總量增至 36 個,構建起國內業界規模最大的產業大模型 體系。在模型層,文心大模型涵蓋基礎大模型、任務大模型、行業大模型的三級體系;在工具與平臺層升級了大模型開發套件、文心 API 和提供全流程開箱即用大模型能力的 EasyDL 和 BML 開發平臺,有效降低應用門檻;新增產品與社區層,包括 AI 創作平臺 “文心一格”、搜索系統“文心百中”和樣谷社區,讓更多人感受到 AI 大模型技術帶來的新 體驗。截至目前,文心已累計發布 11 個行業大模型,涵蓋電力、燃氣、金融、航天、傳 媒、城市、影視、制造、社科等領域,加速推動行業的智能化轉型升級。
除行業大模型外,百度目前新增了 5 個基礎大模型和 1 個任務大模型,包括:知識 增強輕量級大模型、跨模態理解大模型、跨模態生成大模型、文檔智能大模型、單序列 蛋白質結構預測大模型和代碼大模型。其中,知識增強輕量級大模型 ERNIE 3.0 Tiny 具 備優秀的泛化能力,同時相對于超大參數模型,推理速度提升數十倍到百倍,能夠顯著 降低超大參數模型落地的成本。百度計劃在 3 月完成文心一言的內部測試,然后向公眾 正式開放使用。
阿里 M6:出色的低碳低能耗屬性。阿里巴巴達摩院在 2021 年開發出了超大規模中 文多模態預訓練模型 M6。目前,其參數已從萬億躍遷至 10 萬億,規模遠超谷歌、微軟 此前發布的萬億級模型,成為全球最大的 AI 預訓練模型。同時,M6 做到了業內極致的 低碳高效,使用 512 塊 GPU 在 10 天內即訓練出具有可用水平的 10 萬億模型。相比去 年發布的大模型 GPT-3,M6 實現同等參數規模,能耗為其 1%。M6 的優勢在于將大模 型所需算力壓縮到極致,通過一系列技術突破,達摩院和阿里云只用了 480 塊 GPU 就 訓練出了 M6,相比英偉達用 3072 塊 GPU 訓練萬億模型、谷歌用 2048 塊 TPU 訓練 1.6 萬億模型(1 TPU 約等于 2~3GPU),M6 省了超過八成算力,還將效率提升了近 11 倍。
圖片
商湯在 AIGC 的不同領域有多年布局,從文字,到圖片,以及視頻和動畫的 AIGC, 團隊都從技術和產業長期投入,團隊更多專注在視頻的 AIGC,并疊加商湯自研的類似 于 GPT 的生成式內容進行短視頻等創作?;谏虦?SenseCoreAI 大裝置,在視覺大 模型領域,商湯已訓練和構建了超過 300 億量級模型參數超大基模型,可以有效支持相 關應用。
4.5 相關標的
1) 商湯科技
以 AI 生產力平臺為基礎,四大板塊齊頭并進。公司的 AI 生產力平臺 SenseCore 由] 行業研究 敬請參閱末頁重要聲明及評級說明 31 / 80 證券研究報 告 模型層、深度學習平臺、計算基礎設施三個部分架構而成。1)模型層:已開發超過 4.9 萬個商用人工智能模型;算法開源計劃 OpenMMLab 在 GitHub 上超 60000 顆星;OpenDILab 開源平臺,已發布超過 60 個通用決策人工智能算法系列。2)深度學習平 臺:高效利用 GPU 集群算力,訓練單個大模型時可以在一千塊 GPU 上取得超過 90% 的加速效率。3)計算基礎設施:公司正在建立人工智能計算中心,預計能產生每秒 3.74 百億億次浮點運算算力,算力超過 2.5 exaFLOPS,相較于 2021 年底擴大 114%;公司 研發的人工智能芯片及邊緣設備支持視覺領域大模型 100 億參數;公司研發的傳感器及 ISP 芯片 1 天內可完成的完整訓練 1000 億參數模型。在 SenseCore 底座基礎上,公司 開發了智慧企業、智慧城市、智慧生活、智慧汽車四大板塊:
智慧商業:智慧商業是公司的主要業務之一,營收占比超過 40%。公司依托 SenseCore 基座打造了 SenseFoundry Enterpri,形成商業空間管理、住宅物業管理、 工業引擎等具體解決方案。截至 2021 年,該業務客戶數量擴大至 922 家。智慧城市:2021 年公司智慧城市收入占比達 46%。公司研發的 SenseFoundry 主 要面向出行和交通管理、城市服務和環境保護等領域提供解決方案。目前公司在中國智 慧城市計算機視覺軟件市場份額第一,中國智慧應急人工智能與大數據市場份額第一。截至 2022 年上半年,累計有 155 個城市部署城市方舟,包括 16 個超千萬人口大型城市 及 4 個海外城市。智慧生活:公司是智能手機產業的頭部 AI 軟件供應商,截至 2022 年 6 月 30 日, 已累計有 180 多個手機型號的超過 17 億臺手機預裝了商湯的各類 AI 算法。公司的 SenseMARS 內置了 AI 生成內容、三維世界重建、數字人及虛擬形象等模塊,目前已覆 蓋的空間面積突破了 1000 萬平米,覆蓋了 120 多個大型游樂園區、商場等。智慧汽車:商湯科技推出的 SenseAuto,以 SenseCore 為基石,以 SenseAuto Empower 為底座,在智能駕駛、智能座艙、車路協同、L4 級無人駕駛、無人駕駛小巴 推進全線產品化商用。公司的智能駕駛和智能座艙產品累計前裝定點數量達 2300 萬臺, 覆蓋未來五年內量產的 60 多款車型。
2) 科大訊飛
AI 應用快速發展,構建人工智能產業生態。公司自創業以來持續聚焦智能語音、自 然語言理解、機器學習推理及自主學習等人工智能核心技術研究并始終保持國際前沿技 術水平。目前公司已經從語音 AI 逐漸拓展至到教育、醫療、智慧城市、消費、智能汽 車等多領域布局。同時,隨著 ChatGPT 掀起熱潮,公司的類 ChatGPT 技術也將于 5 月落地,率先用于 AI 學習機。智慧教育業務:智慧教育業務是公司的第一大業務,在收入中占比 30%左右。公司 構建了面向 G/B/C 三類客戶的業務體系:G 端業務主要以市縣區等區域建設為主體;B 端業務主要以學校建設為主體;C 端業務主要以家長用戶群自主購買為主。目前訊飛智 慧教育產品已在全國 32 個省級行政單位以及日本、新加坡等海外市場應用。
圖片
3) 云從科技
持續賦能 AI 領域,打造高效人機協同操作系統和行業解決方案。公司是首個同時承 建三大國家平臺,并參與國家及行業標準制定的人工智能領軍企業。公司以計算機視覺、 語音識別為代表的人工智能單點技術為突破,通過不斷研發并優化人機協同操作系統和 適配性強的 AIoT 設備,推動人工智能在特定場景的應用。公司具有人工智能芯片平臺、 深度學習框架、AIoT 操作系統、算法算力平臺、知識中臺、自動駕駛平臺、機器人開發 平臺等豐富的產品:智慧金融業務:公司智慧金融解決方案將相關算法能力落地為技術平臺,主要面向 智慧支付、智慧營運、智慧觸點、智慧風控四大領域,形成了 5 大類金融業智能化轉型 解決方案簇,以及 53 種解決方案。目前公司在智慧金融領域的客戶已涵蓋 6 大行、12 家股份制銀行以及城農商行,服務了超過 400 家金融機構和 10 余萬個銀行網點。
4) 依圖科技
以人工智能芯片技術和算法技術為核心,持續深耕智能公共服務及智能商業領域。公司以人工智能算法和芯片等核心技術為基礎,在城市管理、醫療健康、安全生產、交 通出行和互聯網服務等場景實現規?;虡I落地和與產業的深度融合。目前公司已為國 內 30 余省、自治區、直轄市及境外 10 多個國家和地區的 800 余家政府及企業終端客戶 提供產品及解決方案:
智能公共服務,公司智能公共服務主要包括智能城市和智能醫療:1)智能城市,公司主要著力于三方面:高性能算法賦能城市復雜場景。公司在計算 機視覺的多個細分領域、聲紋識別、中文語音識別及自然語言理解技術均已達到世界領 先水平,可對城市實體在復雜多樣場景下產生的非結構化數據進行解析、識別和關聯, 構建出完整的城市實體關聯關系。高效能算力硬件產品降低城市智能化門檻。公司的原 石系列智能服務器和前沿系列邊緣計算設備,在顯著提高城市視頻智能解析吞吐效率的 同時,大幅降低了算力功耗,從而降低了投資和運營成本?!袄f”方案降低建設成本。公司將大量已建設的非智能攝像機采集的原始數據在云端進行解析,與智能攝像機的解 析結果在云端實現匯聚、融合分析,大大降低智能化建設的投資成本。2)智能醫療方面,公司是業內少數具有以多模態人工智能技術解析多源異構醫療大 數據能力,并具有自研醫療知識圖譜的企業之一。公司在上海兒童醫學中心建設的智慧 兒童醫院解決方案能夠為患者單次就診至少節約 90 分鐘,落地一年來,該解決方案僅智 能導診應用就已累計為超過 27 萬名患兒提供服務,診前檢驗訪問量突破 6 萬人次。
圖片
5) 曠視科技
聚焦物聯網場景,推動人工智能的商業化落地。公司以物聯網作為人工智能技術落 地的載體,通過構建完整的 AIoT 產品體系,面向消費物聯網、城市物聯網、供應鏈物 聯網三大核心場景提供經驗證的行業解決方案。公司的 AIoT 軟硬一體化解決方案包括 以 Brain++為核心的 AI 算法體系,由 AIoT 操作系統和行業應用構成的軟件,以及由 傳感器模組、傳感器終端與邊緣設備、機器人及自動化裝備組成的硬件。消費物聯網:2012 年,曠視進入消費物聯網領域,以 SaaS 產品的形式服務全球開 發者及企業用戶,為其提供數十種 AI 能力。隨著智能設備的普及,公司與多家頭部智能 手機廠商等消費電子領域客戶開展合作,累計為數億臺智能手機提供設備安全和計算攝 影解決方案。
5 算力與網絡是大模型運行的必要條件
5.1 大模型發展,算力需求激增
前文提到,ChatGPT 從初代模型,到當前的 3 代模型,參數量從 1.17 億,提升至 1750 億。同時訓練數據量(語料庫)也由 5GB 提升至 45TB。隨著參數量和語料庫指數級的擴容,ChatGPT 類人工智能需要更充足的算力支持其 處理數據,同時需要投入更多高性能的算力芯片來處理千億級別參數量。英偉達的研究 表示,GPT-3 模型需要使用 512 顆 V100 顯卡訓練 7 個月時間,或者使用 1024 顆 A100 芯片訓練長達一個月的時間。2012 年以來,人工智能訓練任務中的算力增長(所需算力 每 3.5 月翻一倍)已經超越芯片產業長期存在摩爾定律(晶體管數量每 18 月翻一倍)。
現階段國內無法采購英偉達 A100、H100 等高端 GPU 產品,但算力性能上的差異 可以通過提升算力芯片數量來彌補, 因此對于算力芯片產品的需求也將更高。國內主流 互聯網廠商也有類 ChatGPT 產品正在開發,比如悟道和百度的文心等 AI 模型。隨著國 產 GPU, CPU, FPGA 產品性能的提升,人工智能的算力需求將為國產芯片廠商打開廣 闊的市場空間。同時,以 ChatGPT 為代表的 AI 技術浪潮的到來,對產業鏈相關芯片, 模組,材料等環節均帶來了海量的新需求。
5.2 GPU/GPGPU/FPGA 多路線支持算力
人工智能深度學習模型需要處理兩大任務,即訓練和推理。1) 訓練就是學習過程,通過大數據訓練出復雜的神經網絡模型,使得整個系統可以適 應特定的功能。因此,訓練需要龐大的算力來處理數據并搭建網絡模型,所需的芯片需要具有高算力和通用性。2) 而推理在訓練之后,主要是在已有的訓練完善的模型基礎上,輸入新數據進行推斷, 能耗、時延、效率等因素都是影響推理能力的因素。但同時,推理環節不需要在龐 大的神經網絡之中反復調整參數,因此對算力的要求相對于訓練要低很多。
一般來說,在深度學習的訓練中,GPU 因為其并行串聯的優勢,相比較于 CPU 更 加適應處理大數據。最早為了解放 CPU 處理其他任務和計算的需求,圖形計算全部交 由 GPU 來做。因此傳統的 GPU 的主要功能是做圖形渲染(實質是做圖形渲染的計算), 但隨著 AI 計算需求的發展,GPGPU 應運而生,GPGPU 即為通用計算 GPU,指去掉 GPU 的圖形顯示部分,將其余部分全部投入通用計算,其在 AI、數據分析和 HPC 等場 景下可以廣泛應用??偠灾?,通用 GPU 在加速硬件能力上的優勢比較明顯,在深度學 習訓練方面比較適用。根據相關市場統計,全球 GPU 的市場已經達到了 448 億美元的規模,在 AI 的發展 需求下,通用型 GPU 的市場正在快速成長。
圖片
CPU 是計算機運算和控制的核心,其工作原理是將指令依序執行,其串行運算的特 點使其更加適應邏輯控制。因此在深度學習模型之中,CPU 搭配 GPU 是目前的主流方 案,但隨著各類算法在 FPGA/ ASIC 芯片上的優化,以及其本身性能的提升和成本的優 化,FPGA 和 ASIC 也會在人工智能領域上有著更廣的應用?,F階段,可編程的 FPGA 芯片也逐漸提升市場份額。實際應用中,微軟利用 FPGA 加速 Azure 云服務、必應等數據中心服務中的實時人工智能。FPGA 具備快速、低功耗、 靈活和高效的優點。硬件可編程的特性使得 FPGA 在 AI 訓練中既能提供充足的算力, 又具有靈活性,可以重新編程以適應不同任務的需要。與 GPU 類似,FPGA 也是配合 CPU 進行加速。國內 FPGA 廠商中,紫光國微于 2022 年推出了 2x 納米的低功耗 FPGA 系列產品,新一代 1x 納米更高性能 FPGA 系列產品也在順利推進中,進一步完善了產 品種類。復旦微電具備 65nm 制程千萬門級和 28nm 制程億門級產品,目前以 28nm 制 程的 FPGA 產品為主。安路科技的 FPGA 芯片產品形成了由 PHOENIX 高性能產品系 列、EAGLE 高效率產品系列、ELF 低功耗產品系列組成的產品矩陣。根據市場統計,全球 FPGA 芯片規模在 79 億美元左右,隨著 AI 和軍工等下游行業 的需求增長,全球 FPGA 市場空間仍在持續上升之中。
5.3 高帶寬網絡是對人工智能算力的重要支撐
大模型訓練和推理使用了 AI 計算集群。AI 大模型通常需要部署在 AI 計算集群以實現訓練和推理加速并實現最佳能效比。以目前獨家開放了 ChatGPT 調用能力的微軟 Azure 為例,其 AI 基礎設施由互聯的英偉達 Ampere A100 Tensor Core GPU 組成,并 由 Quantum infiniBand 交換機提供強大的橫向擴展能力。根據微軟宣布,為 OpenAI 開 發的超級計算機超過了 28.5 萬個 CPU 核心、1 萬個 GPU,每臺 GPU 服務器網絡連接 能力為 400Gbps,位列全球超級計算機前五。目前,英偉達的 AI 計算集群整體解決方 案(如 DGX A100 系列)是 AI 集群投資的主流選擇,除此之外部分云和互聯網大廠選 擇了 CPU+FPGA+GPU+AI DSA 異構算力自己搭建 AI 計算中心。根據 YOLE 預測,全 球 AI 加速服務器滲透率將在 2027 年達到 17.9%,AI/GPU 加速服務器出貨量復合增速 高達 39.8%/20.3%。
后者是在設備轉發層面盡量優化網絡時延,實現高性能無損網絡,目前主要手段是 無帶寬收斂(1:1)的網絡架構設計以及基于 PFC 和 ECN 功能的優先隊列管理和擁塞管 理。無帶寬收斂比設計意味著交換機下行和上行流量一致,將增加上行端口數量或端口 帶寬,而優化流控技術需要可編程的三層網絡交換機,以上將導致交換機端口數量增加 以及價值量提升。
圖片
在數據中心集群網絡方面,北美 Top4 云廠商已經全面進入 400G 部署階段。以微 軟數據中心為例,其在 2016 年開始批量部署 100G,由于 AI 算力的快速增長,2021 年 開啟 400G 部署,并預計 2024 完成 400G 的全面部署,加速向 800G 邁進。而對于 400G 部署更早的亞馬遜和谷歌,預計在 2023 年開啟小規模 800G 部署,更大的端口帶寬將 帶來更高的端口密度,節約空間的同時每 Gbps 成本下降。根據 LightCounting 預測,全 球數據中心以太網光模塊市場將在 2027 年突破 100 億美金,5 年 CAGR 11.5%,其中 800G CAGR 達 72%。
單機網卡數增加和網絡收斂比降低增加了交換機和光模塊用量。根據數據中心光模 塊需求量計算公式(流量法):1)服務器到 TOR 交換機光模塊:服務器網卡端口數*2 2)TOR 到 LEAF 交換機光模塊:服務器流量/一級收斂比/TOR 上聯端口速率*2 3)LEAF 到 SPINE 光模塊:LEAF 流量/二級收斂比./LEAF 上聯端口速率*2 假設普通 Hyperscale 數據中心和 AI 數據中心分別有 X 臺服務器,每臺服務器網卡 速率為 100Gbps,數量分別為 2/10,網絡收斂比分別為 2:1、1:1,交換機上聯端口速率 為 400G,計算得到普通 Hyperscale 數據中心光模塊(包括 AOC/DAC)用量為 4.75X, 而 AI 數據中心光模塊用量為 23.75x,光模塊用量大幅提升。
圖片
CPO 探討:一系列技術問題的解決和產業鏈結構的重塑。CPO(光電共封裝)的主 要形態為交換芯片與光引擎封裝在一塊基板上,交換芯片與光引擎通過 XSR SerDes 直 聯。我們認為 CPO 可能是數據中心交換機端口發展到 1.6Tbps 以上一種可能的光模塊 形態,雖然 AI 算力將加速數據中心交換機帶寬的增長,但 CPO 的滲透仍將是個緩慢的 過程。CPO 主要解決的是高速 SerDes 信號衰減和功耗問題(1.6T 光模塊可能使用 200G SerDes)、1.6T 光模塊多通道設計和良率難題以及相應帶來的成本高企,但目前也有一 些問題需要解決,比如光源設計問題(如設計在交換機內光引擎附近容易出現熱失效, 一種可能的思路為外置光源 ELS 但相應也會帶來功耗的增加和布線的成本大幅提升)、 與交換機芯片的聯調問題、以及將來的替換維護問題(需拆機維護)。我們認為,CPO 或 將重塑數通產業鏈結構,話語權可能會向交換芯片廠商、交換機廠商傾斜,同時光引擎 封裝、硅光芯片、保偏光纖、CW 激光器、封裝基板等環節也將成為新增投資機會。
5.4 量子計算有望成為 AI 算力突破的“神助攻”
量子計算產業蓬勃發展。量子計算機基于量子力學原理構建,量子態疊加原理使得 量子計算機的每個量子比特(qubit)能夠同時表示二進制中的 0 和 1,相較經典計算機 算力呈指數級爆發式增長。目前量子計算機已被證明在特定計算任務上具備指數加速能 力,即實現所謂的“量子霸權”,目前量子計算產業化需要解決的三大目標一是開發大規模 可容錯的量子計算機以盡快實現可編程計算;二是開發精妙的量子計算算法以實現在特 定場景的商業化價值;三是解決量子計算資源稀缺性難題,通過云平臺提升綜合性普惠 服務能力。根據 Hyperion Research 最新展望,全球量子計算市場 2022 年市場規模 6.14 億美 元,預計到 2025 年達到 12.08 億美元,CAGR 25%,其中機器學習市場占比 25%,被 認為是最有潛力的應用市場之一。
圖片
量子計算在 AI 的應用處于探索初期,發現部分算法可能有優勢,但還沒實現量子 霸權。神經網絡和機器人學習系統的發展依賴于算力的進步以及龐大的訓練數據量積累, 隨著摩爾定律演進的放緩以及“內存墻”等經典計算機架構原因,算力增長正在放緩,而隱 私問題&數據標注成本也阻礙大數據的無限度獲取。目前,產業界認為量子計算可能會成 為機器學習發展的“神助攻”或開辟嶄新的量子機器學習領域。一是量子計算機本身的工作架構可被看做一個神經網絡(N 個 Qubit 可代表 2 的 N 次方個神經元),麻省理工大學物理學家 Lloyd 估計,60 個 Qubit 量子計算機可以編碼 的數據量就相當于人類一年生成的所有數據,而神經網絡運算相當于同時對這些“神經元” 對矩陣運算。二是傳統神經網絡初始層導入輸入的樣本將被中間層生成不同組合形式的 輸入,而采用量子比特編碼的數據集數量和多樣性都有可能擴大和豐富從而可能更好地 訓練模型。目前學術界探討的可能展現出優勢的人工智能算法包括決策問題、搜索問題、 博弈理論、自然語言處理、貝葉斯網絡、模式識別等,但由于目前還無法成功解決模型 的初始參數輸入以及準確的結果測量手段等問題,量子計算機在以上人工智能算法上還 未展現出“量子霸權”優勢。
量子計算加速 NLP 成為最被看好的前沿應用領域。作為目前爆火的 AI 大模型, ChatGPT 是自然語言處理(NLP)的創新成果,結合了語言學、計算機和人工智能,以 理解和模仿人類如何使用語言。量子計算在 NLP 大型復雜數據集處理中可能具有價值, Omdia 首席量子計算分析師 Sam Lucero 認為量子計算將在 NLP 中發揮作用,最終在 ChatGPT 和 AIGC 中發揮作用,該研究分支被稱作 QNLP。根據啟科量子研究,QNLP 可能存在以下優勢:1)NLP 的主要任務即相關搜索或 任務分類的算法加速;2)指數級的量子狀態空間適用于更加復雜的語言結構;3)運用 密度矩陣的新型意義模型自然地模擬了諸如下義關系和語言歧義等語言現象;4)可以大 大提高訓練效率,用更少的訓練數據達到相同的能力水平。2020 年初,劍橋量子計算公 司(CQC)宣布首次在量子計算機上執行自然語言處理測試并獲得成功,他們通過將語 法句子翻譯成量子電路,然后在量子計算機上實現生成的程序執行問答,發現了在含噪 聲中等規模量子計算時代獲得量子優勢的途徑。
5.5 相關標的
1) 海光信息:國產 CPU 與 GPGPU 重要參與者
海光信息是一家以 CPU 和 DCU 產品為主的芯片設計廠商,公司多款產品性能達到 了國際同類型主流高端處理器的水平。CPU 類產品兼容國際主流 x86 處理器架構和技術 路線以及國際上主流操作系統和應用軟件,軟硬件生態完善,可靠性和安全性較高,得 到終端客戶的認可,已經廣泛應用于運營商、金融、互聯網、教育等重要行業及領域。海光 DCU 系列產品以 GPGPU 架構為基礎,兼容通用的“類 CUDA”環境以及國際主 流商業計算軟件和人工智能軟件,軟硬件生態豐富,可廣泛應用于大數據處理、人工智 能、商業計算等應用領域。在 ChatGPT 等應用場景下的所指的 GPU 即為 GPGPU,去掉 GPU 為了圖形處理 而設計的加速硬件單元,保留了 GPU 的 SIMT 架構和通用計算單元。所以對于 ChatGPT 場景下的 AI 訓練、矩陣運算等通用計算類型的任務仍然保留了 GPU 的優勢,即高效搬 運,運算,重復性的有海量數據的任務。
圖片
2) 復旦微電:FPGA 受益算力增長
復旦微電的 FPGA 產品線擁有系列化超大規模異構融合可編程邏輯器件系列產品, 公司在國內較早的推出了億門級 FPGA 和異構融合可編程片上系統(PSoC)芯片,以 及面向人工智能應用的 FPGA 和 AI 的可重構芯片(FPAI)。公司累計向超過 500 家客戶銷售相關 FPGA 產品,在通信領域、工業控制領域等得到廣泛應用。
FPGA 在人工智能加速卡領域應用廣泛。FPGA 通過與 CPU 搭配,CPU 的部分數 據運算轉移給 FPGA,最終 FPGA 起到加速作用。無論是賽靈思還是英特爾,其 FPGA 在數據中心運算方面的產品形態均為加速卡,在服務器中與 CPU 進行配合。人工智能領 域屬于加速計算的一個分支,如阿里云、騰訊云之類的數據中心均對加速卡存在大量需 求. 根據人工智能的不同應用領域,可將各種算力需求和控制邏輯用最合適的資源組合 實現,在這一過程中,FPGA 在其中起到了關鍵作用??傮w而言,FPGA 具備快速、低 功耗、靈活和高效的優點。硬件可編程的特性使得 FPGA 在 AI 訓練中既能提供充足的 算力,又具有靈活性,可以重新編程以適應不同任務的需要。
3) 中際旭創:全球光模塊龍頭迎來 800G 時代
中際旭創是全球高速數通光模塊龍頭,在 Top5 云計算公司光模塊供應商中占據最 大份額,根據 LightCounting 統計,公司在 2021 全球光模塊市場位列第一。全球云巨頭 數據中心網絡部署正處于 400G 批量部署、800G 小批量上量階段,公司 800G 全系列 產品已實現供貨,800G 時代有望維持龍頭地位,并將享受 400G、800G 高端產品收入 占比增加帶來的綜合毛利率提升。此外,公司布局硅光、CPO 等前沿技術,硅光/EML 兩 種平臺 400G 光模塊均通過客戶驗證,未來有望把持產業鏈上游核心環節,實現供應鏈 穩定。在電信市場,公司戰略進軍相干高端光模塊,已在國內主要設備商實現供貨,有 望開啟第二增長曲線。
4) 聯特科技:歐美中低速 WDM 主流供應商,數通光模塊“黑馬”
聯特科技在海外市場主打差異化競爭優勢,經歷 10 年積累,在 WDM 細分市場占 據了優勢地位,主要客戶包括愛立信、諾基亞、Prolabs、Adtran 等。隨著歐美疫后通信 新基建投資增加,原有城域網持續速率升級,公司在客戶份額有望繼續提升。此外,海 外發達國家 RAN 市場,愛立信、諾基亞兩家占據主導地位,公司作為愛立信前傳光模塊 主要供應商之一收入持續增長。數通方面,近幾年營收快速增長,2021 年營收達 3.3 億 元,同比增長 33%,在整體收入中占比近半。公司已成為思科、Arista 等海外主流設備 商合格供應商,100G/400G 高速光模塊產品持續上量,并有望在 2023 突破北美 Top4 云廠商客戶。公司前瞻布局 800G 和 CPO 產品,目前已推出基于 EML、SiP、TFLN 全 系列 800G 產品,EML 預計 2023 年在客戶端完成全面認證。
5) 天孚通信:光通信精益制造代表,光引擎、激光雷達成長速度快
天孚通信定位于光器件整體解決方案提供商 OMS,目前擁有十三大產品線、八大解 決方案,幾乎涵蓋光模塊生產所需的所有無源光器件、各種有源封裝形態等。公司 2022 年業績快報預計實現收入 12.06 億元,同比增長 16.8%,五年 CAGR 29.1%,歸母業績 29.2%。公司將持續優化無源產品線結構,拓展新客戶的同時提供一站式解決方案增加 單客戶價值量,未來無源產品有望保持高于行業的平均增速和毛利率;有源方面,公司 戰略聚焦高速數通領域,與大客戶合作的硅光引擎快速上量,將受益于 800G、1.6T 硅 光、CPO 等新技術滲透率提升。此外,公司在激光雷達領域秉持精益制造理念,提供濾 波片、透鏡、棱鏡等無源光器件以及模組化解決方案代工,目前在國內主流新勢力車型 已取得定點,未來兩年將持續放量。
6) 國盾量子:量子計算機已實現原型機搭建
公司核心技術來源于中科大產業化平臺,是全球量子通信 QKD 設備龍頭企業。公 司在國內量子通信骨干網一期建設中占據了主要的設備份額,其骨干網/城域網 QKD 編 碼產品、量子衛星地面站產品、信道與密鑰組網交換產品已批量部署。我們認為,隨著 國內經濟的全面復蘇,量子骨干網二期有望啟動,同時公司在電力、電信、金融等領域 與大型央國企簽訂戰略合作協議,隨著各行業對保密通信的重視,有望開啟更加廣闊的 行業市場。公司在量子計算領域主要提供超導量子計算低溫線纜組件、約瑟夫森阻抗漸 變參量放大器、ez-Q Engine 超導量子計算操控系統等子系統和器件,其超導量子計算 操控系統成功主力“祖沖之號”實現量子優越性展示。公司日前完成了“祖沖之二號”同等規 模超導量子計算機原型機搭建,是國內目前唯一具有量子計算機整機集成能力的上市公 司,未來將通過平臺的形式率先提供服務。
7) 浪潮信息:國內領先 AI 服務器廠商
公司是全球領先的新型 IT 基礎架構產品、方案及服務提供商,以“智慧計算”為戰略, 通過“硬件重構+ 軟件定義”的算力產品和解決方案、構建開放融合的計算生態,為客戶 構建滿足多樣化場景的智慧計算平臺,全面推動人工智能、大數據、云計算、物聯網的 廣泛應用和對傳統產業的數字化變革與重塑。當前業務包括傳統服務器、AI 服務器及存儲產品。根據 IDC 最新數據,浪潮信息的服務器產品 2021 年全年位居全球前二,持續以 30%+的市占率領跑中國市場;AI 服務器方面,根據 IDC 數據,2021 年全年,中國 AI 服務器市場規模達 350.3 億 元,同比增長 68.6%。從廠商維度看,浪潮信息、寧暢、新華三、華為、安擎位居前五, 占據了 82.6%的市場份額。其中,浪潮 AI 服務器市場占有率達 52.4%。2021 年,公司 發布首款智算中心調度系統 AIStation,擁有性能最強的液冷 AI 服務器 NF5488LA5,發 布 2457 億參數的 AI 巨量模型“源 1.0”。
6 從元宇宙到大制造,大模型應用領域不斷豐富
6.1 “生成式 AI”在互聯網及元宇宙應用
“生成式 AI (generative AI)”在互聯網及元宇宙領域市場化空間較為廣闊?;诂F行 的 NLP 算法發展程度及數據集規模,在不久的將來,生成式 AI 有較大可能在“智能客服” 和“搜索引擎”進行增值,并有希望以“插件”的形式賦能現有的“生產力工具鏈(工程軟件/音 視頻制作工具等)”。在為客服領域增值的過程中,有希望在人工客服的全鏈路中(包括問題識別、潛在 解決方案交付、反饋優化、和風險識別等)實現對人工客服的替代??蓪崿F替代的領域 包括電商零售、醫療健康、金融服務、和電信等領域的客服環節。
1) “生成式 AI”在智能客服領域的潛在應用
“可對話 AI(Conversational AI)”是“生成式 AI”在智能客服領域的直接應用。根據 Grand View Research,全球“可對話 AI(Conversational AI)”2021 年市場空間為 62 億美 元,其中,BFSI(銀行保險等金融服務),醫療,零售和電商,和電信領域的市場空間為 42.5 億美元左右,占 68.5%左右;根據 Grand View Research 預測,2030 年“可對話 AI” 的市場空間將達到約 413.9 億美元,對應 2022 至 2030 年復合增長率(CAGR)為 23.6%。該領域的核心競爭者包括:谷歌,微軟,亞馬遜,IBM,甲骨文,和 SAP 等。市場增長 的主要驅動因素包括各領域對于應用 AI 技術替代人力這一需求的提升,和持續下降的 AI 對話程序的研發成本。
圖片
我們判斷,從現在起至未來幾年,作為 “ 生 成 式 AI” 重 要 應 用 的 “ 對 話 AI(Conversational AI)”的商業化模式中較為清晰且可行的,是在各個領域對于人工客服 的替代。對人工客服進行替代的假設是基于以下 3 點考慮:1、全球主要發達經濟體人口 增長乏力,勞動力數量減少,用工成本攀升,有強烈的使用 AI 對話機器人替代人工客服 的需求;2、“智能對話機器人”相比“人工客服”可以創造更多價值,即,機器人可以完成 更多人工客服無法勝任的任務,并且工作效率高,解決問題出錯率較低。3、“智能對話 機器人”研發和部署成本的有希望隨著算力提升或者異構運算的發展而逐步下降,同時該 機器人的實踐經驗的可復制性不斷提高。由于電商、醫療健康、BFSI、和電信網絡服務 的客服服務中產生的問題及解答,較為結構化并依賴勞動力密集產出(其中,醫療健康 領域不包括醫生看診環節,僅包括掛號預約、初步咨詢、取藥、和護理服務溝通等專業 性較低環節),所以這 4 個應用領域有望成為“可對話 AI”可以進行“人力資源替代”的主要 領域。我們從這 4 個主要領域入手,基于對未來驅動因素的假設,進行了市場空間測算。根據 Grand View Research,2021 年這 4 個主要領域市場空間約為 42.5 億美元左右;基于此作為起點,經過我們的測算,2033 年這 4 大主要領域的市場空間可以達到 478 億美元。
2) “生成式 AI”在搜索引擎領域的潛在應用
在互聯網搜索領域,目前谷歌占據絕對的領軍地位。谷歌主要的業務板塊是谷歌服 務(Google Services),2022 年谷歌服務收入 2535.28 億美元。谷歌服務依賴谷歌在搜索 引擎領域長期積累的技術和商業化優勢,包括搜索,Youtube,google play 智能手機平 臺,廣告,瀏覽器,郵箱,云盤等。在考慮未來“生成式 AI”在搜索領域可以實現的收入時,考慮范圍應該不局限于“搜索 引擎”本身,還應該包括基于“搜索引擎”技術所拓展出的外延部分,比如 Youtube,GoogleMap 和 Google Play 等;這些搜索引擎外延部分的商業化表現,本質是基于平臺是否可 以基于用戶的搜索請求或者使用習慣,將產品及服務較精準的分發給用戶,然后用戶并 為此付費。所以,谷歌服務部分的收入天花板,可以用來作為“標尺”去衡量未來智能對話 機器人在“搜索領域”的潛在收入中最易于理解的部分。
2023 年 2 月初,微軟公布新 Bing (New Bing)搜索引擎,該版本搜索引擎集成了 ChatGPT 技術,公布不到 48 小時,申請用戶量已經過百萬。用戶需要排隊注冊申請并 等待獲得使用新 Bing 測試版的資格。根據微軟官方的解釋,新 Bing 可以作為類似研究 助理(research assistant),個人計劃員(personal planner),和創意合作伙伴(creative partner)的角色為用戶創造價值。和常規的搜索引擎相比,新 Bing 的搜索結果將不再是 簡單的提供給用戶一個鏈接列表,而是給用戶一個概括的答案,解決用戶的具體問題, 并且提供可靠的信息來源。用戶可以按照思考和溝通的方式與新 Bing 對話。同時,新Bing 也可以作為創意工具,幫助用戶寫詩,寫故事或者寫分享關于項目的想法。根據 The Verge 發布的新 Bing 測試使用體驗,用戶可以直接向 Bing 提問如何幫助自己規劃一個 在紐約市 3 日的旅行,同時確保自己可以待在紐約時代廣場附近;而新 Bing 的回復可以 做到將酒店的選擇按照一定優先級為用戶規劃出來。
圖片
2023 年 2 月初,谷歌也發布了谷歌巴德(Google Bard)生成式可對話 AI。使用了谷 歌的 LaMDA(Language Model for Dialogue Applications)模型。但是谷歌巴德發布之后, 并沒有達到用戶的期待。之后,谷歌母公司 Alphabet 主席 John Hennessy 稱,谷歌之 前在猶豫是否要將 Bard 應用于產品中,因為 Bard 還沒有真的準備好。同時,百度也與同一時期官宣了“文心一言(ERNIE Bot)”即將于 2023 年 3 月完成內 測,屆時將向公眾開放。之后,上海報業集團,36 氪,廣州日報,愛奇藝,度小滿,攜 程等媒體及互聯網產品和平臺均宣布接入文心一言。文心一言采用文心大模型,文心大 模型的 API 包括 ERNIE 3.0 文本理解與創作,ERNIE-ViLG 文生圖和 PLATO 開放域對 話服務。
6.2 AI 賦能制造業轉型升級,智能制造浪潮興起
物聯網、大數據、云計算等技術日益成熟,人工智能已成為新時代的風口浪尖,“人 工智能+”也代表一種新的社會形態。智能制造是實現制造強國的主攻方向,更是提升制 造業競爭力的核心技術。隨著智能制造的浪潮興起,人工智能技術已貫穿于制造業設計、 生產、管理等諸多環節。從必要性看,在勞動力及土地成本雙升的背景下,制造業面臨 著利潤低、市場變化迅速等壓力,而人工智能的應用不僅可以幫助企業提升智能化運營 水平,實現降本增效,還可以通過與其他新興技術的融合,推動制造業模式升級及價值 鏈重構。從實際應用來看,人工智能在制造業的應用可分為三方面:1)智能裝備:指具 有感知、分析、推理、決策、控制功能的制造裝備,典型代表有工業機器人、協作機器 人、數控機床等;2)智能工廠:利用各種現代化的技術,實現工廠的辦公、管理及生產 自動化,典型的代表場景有協作機器人、智能倉儲物流系統等;3)智能服務:指個性化 定制、遠程運維及預測性維護等,典型代表有工業互聯網等。
1) 智能裝備產業百花齊放,工業機器人與高端數控機床空間廣闊
工業機器人
工業機器人種類眾多,貫穿工業生產的諸多工藝過程。工業機器人是廣泛用于工業 領域的多關節機械手或多自由度的機器裝置,具有一定的自動性,可依靠自身的動力能 源和控制能力實現各種工業加工制造功能。從構成來看,其主要分為三大模塊:傳感模 塊、控制模塊和機械模塊。其中傳感模塊負責感知內部和外部的信息,控制模塊控制機 器人完成各種活動,機械模塊接受控制指令實現各種動作。從種類來看,工業機器人可 分為搬運作業/上下料機器人、焊接機器人、噴涂機器人、加工機器人、裝備機器人、潔 凈機器人及其他,貫穿于工業生產過程中從材料和零部件入庫到生產再到最終產品出庫 的諸多環節。根據億歐智庫整理數據,2021 年搬運機器人和焊接機器人占比最高,分別 達 55%和 25%。從功能上看,較人工和傳統機器而言,不論哪一類工業機器人,在實際 生產中都具備成本、效率、安全等眾多優勢。因此,我們認為,隨著核心零部件和核心 技術的快速發展,工業機器人市場有望迎來快速發展。
圖片
高端數控機床
數控機床是一種裝有程序控制系統的自動化機床,具備柔性和高效能的特點。近年 來國內數控機床技術在高速化、復合化、精密化、多軸化等方面取得了重要突破,高端 數控機床產業發展迅速。從組成來看,高端數控機床包括加工程序載體、數控裝置、伺 服系統、機床主體和其他輔助裝置。具體來看:1)加工程序載體。即以一定的格式和代 碼存儲零件加工程序,從而對數控機床進行控制。2)數控裝置。屬于數控機床的核心, 多采用 CNC 系統,通過計算機系統程序的合理組織,整個系統協調的進行工作。3)伺 服與測量反饋系統。主要用于實現數控機床的伺服控制,包括驅動裝置和執行機構兩大 部分。4)機床主機。指在數控機床上自動地完成各種切削加工的機械部分,包括床身、 底座、立柱、滑座、主軸箱、刀架等機械部件。5)其他輔助裝置。證充分發揮數控機床 功能所必需的配套裝置,常用的輔助裝置包括:氣動、液壓裝置,排屑裝置,冷卻、潤 滑裝置等。
數控機床優勢明顯,后疫情時代市場規?;謴驮鲩L。與普通機床相比,數控機床的 優點眾多,具體來看:1)高度柔性。在數控機床上加工零件,主要取決于加工程序,因 此其適用于所加工的零件頻繁更換的場合,能較大程度縮短生產周期并節省費用。2)加 工精度高。數控機床是按數字信號形式控制的,加工精度更高。3)加工質量穩定、可靠。4)生產率高。數控機床可有效地減少零件的加工時間和輔助時間。因此,高端數控機床 正廣泛應用于大制造領域。從市場規模來看,根據中商產業研究院統計數據顯示,2019 年我國數控機床市場規模達 3270 億元,但 2019 年后,受疫情影響,2020 年國內數控 機床市場規??s減至 2473 億元。受益于國內疫情控制良好,各行業開始復工復產,2021 年數控機床市場規?;謴驮鲩L,達 2687 億元。中商產業研究院預測,2022 年數控機床 產業規模將達 2957 億元。就目前形勢來看,我們認為,一方面,隨著國內疫情管控放開,經濟環境向好,各 行各業活力加速恢復,數控機床產業有望受益于下游需求加速擴張;另一方面,隨著上 游核心零部件國產化水平提升,數控化率也會逐步提升,國產替代空間廣闊,因此,高 端數控機床產業勢在必行。
2) 智能工廠是實現智能制造的載體,協作機器人與智能倉儲物流 是工廠新星
協作機器人
協作機器人是一種新型的工業機器人,掃除了人機協作的障礙,機器人與人可以在 生產線上協同作戰,充分發揮機器人的效率及人類的智能,給未來工廠的工業生產和制 造帶來了根本性的變革。與傳統工業機器人有所區別,協作機器人優勢特點明顯。與傳統工業機器人相比, 其不同之處在于:1)目標市場不同,協作機器人偏向于應用在中小企業及適應柔性化生 產要求的企業,而傳統工業機器人適用于大規模生產企業。2)模式不同,傳統工業機器人是作為整個生產線的組成部分,如果某個環節機器人壞了,整條產線可能會面臨停工 的風險,而協作機器人更具備柔性特點,代替的是人,使得整個生產流程更為靈活。優 勢方面,協作機器人具備輕量化、友好性、人機協作、編程方便及感知能力五大特點。
圖片
智能倉儲物流
智能倉儲物流系統是通過信息化、物聯網和機電一體化共同實現的智慧物流解決方 案,通過將物料出入庫、存儲、輸送、生產、分揀等物流過程自動化、信息化和智能化, 來實現降本增效的目的。從構成來看,智能倉儲物流系統包括硬件裝備和軟件系統。其中,硬件裝備可按環節分為倉儲裝備、分揀裝備和搬運與輸送裝備,具體的產品包括立 體倉庫、堆垛機、穿梭車、輸送機、AGV、碼垛機器人和分揀機等,主要執行具體的倉 儲物流操作任務;軟件系統是智能倉儲物流系統的控制中心,主要包括倉儲管理系統 WMS 和倉儲控制系統 WCS,負責具體的倉儲物流信息控制。從環節劃分,倉儲裝備與 軟件系統的結合即智能倉儲;分揀與輸送、搬運裝備與軟件系統的結合稱為狹義的智能 物流;若智能倉儲物流系統與生產線對接,增加物料管理、產線對接等產線功能模塊, 即構成智能產線倉儲物流系統,也就是常說的智能產線,也是智能工廠的基礎版。
市場空間前景廣闊,黃金賽道有望開啟高增。從智能倉儲市場規模來看,根據頭豹 研究院統計的數據來看,受益于物流行業規模的迅速增長和倉儲環節降本增效的需求不 斷攀升,市場規模從2017年的712.5億元增至2021年的1145.5億元,CAGR達12.6%。但從設備滲透率中,也反映出智能倉儲物流在很多領域的融合程度不足,因此向未來看, 隨著智能倉儲物流與更多應用場景融合和 5G、物聯網、人工智能等技術在倉儲行業的進 一步升級,智能倉儲行業有望加速發展,預計 2021-2026 年 CAGR 達 18.4%,2022 年 智能倉儲物流市場規模約 1357 億,2026 年達 2665 億元。
6.3 AI 賦能工業互聯網,打造高效率設備管理和生產流程
智能服務是智能制造的必然延伸,工業互聯網是制造業智能化的重要發展方向。工 業互聯網是數字化轉型的關鍵力量,更是推動制造業轉型發展的重要支撐。工業互聯網 是全球工業系統與高級計算、分析、感應技術以及互聯網連接融合的一種結果。其本質 是通過開放的、全球化的工業級網絡平臺把設備、生產線、工廠、供應商、產品和客戶 緊密地連接和融合起來,高效共享工業經濟中的各種要素資源,從而通過自動化、智能 化的生產方式降低成本、增加效率,幫助制造業延長產業鏈,進而推動制造業轉型發展。換言之,工業互聯網是實現智能制造的發展模式和現實路徑。其產生背景也是國內人口 紅利的消失,勞動力成本上升。工業互聯網則通過信息技術與工業系統的深度融合,保 證對制造成本控制,因此,工業互聯網已成為主要工業國家搶占國際制造業競爭的制高 點。
圖片
AI 算法的加入將有效提升設備運行穩定度和流程控制效率。以流程工業 PHM 智能 監測系統為例,傳統監測方式需要大量人工進行實時排障,隨著 AI 算法的加入,PHM 有望快速實現智能化、無人化,減少緊急維修事件發生的概率,降低其帶來的停機、排 障、維修損失,同時降低不必要的檢修次數和對應成本。對于化工、冶金、煤炭等流程 行業來說,每一個泵、反應釜、管路、溫控設備出現故障都會對產線造成重大影響,甚 至釀成生產事故。AI 帶來的能力提升將意義匪淺。
6.4 人工智能助力汽車智能化
1) 智能駕駛:從駕駛輔助到自動駕駛
自動駕駛汽車依靠人工智能、視覺計算、雷達、監控裝置和全球定位系統協同合作, 它是一個集環境感知、規劃決策、多等級輔助駕駛等功能于一體的綜合系統,它集中運 用了計算機、現代傳感、信息融合、通訊、人工智能及自動控制等技術, 是典型的高新技 術綜合體。這種汽車擁有和人一樣的“思考”、“判斷”以及“行走”能力,使得電腦可以在沒 有任何人主動的操作下,能夠自動安全地操作機動車輛。按照《汽車駕駛自動化分級》,駕駛自動化共分為:應急輔助、部分駕駛輔助、組合 駕駛輔助、有條件自動駕駛、高度自動駕駛以及完全自動駕駛六個層級。
智能駕駛的感知、處理和執行都離不開人工智能技術的基礎。首先,感知:讓車輛 配對相應的感測器來收集車輛的行駛狀況和道路環境狀況等信息。不同的系統需要由不 同類型的車用感測器,包含毫米波雷達、超聲波雷達、紅外雷達、雷射雷達、CCD \CMOS 影像感測器及輪速感測器等來收集整車的工作狀態及其參數變化情形;其次,處理:將 感測器所搜集的信息進行分析處理,再向智能控制中心傳達控制訊息;最后,執行。根 據控制中心下達的命令,完成對汽車的駕駛。
2) 智能座艙:從出行工具到出行管家
智能座艙實質是汽車駕駛艙中的人機交互場景,主要目的是將駕駛信息與娛樂信息 兩個模塊進行集成,利用自身處理海量信息數據的強大能力,把握用戶在不同場景下的 行為習慣,并以此優化智能座艙的空間結構,進而提升用戶的駕乘體驗。據《2022 中國智能汽車發展趨勢洞察報告》,未來隨著智能化技術的不斷普及,汽 車不再僅僅是交通工具,將擴展成為日常生活的第三空間,用戶對乘坐體驗要求更高, 智能座艙將加速普及。根據 ICVTank 數據,2022 年全球智能座艙行業市場規模有望達 461 億美元,中國作為全球最具發展潛力的汽車市場,2019 年中國智能座艙市場規模達 441 億人民幣,預計 2025 年市場規模將達 1030 億人民幣,2017-2025 年的復合增長率 為 13%,發展潛力巨大。
智能座艙是由不同的座艙電子組成的完整體系,其關鍵技術主要由四部分組成。第 一部分是機械技術,包括可變化車體技術和內飾機構技術。未來汽車可根據不同模式進行伸縮折疊是一種趨勢,座艙需要可以根據乘客對于不同場景的使用需求,實現內飾空 間的不斷調整變化。第二部分是電子硬件技術,包含芯片技術、顯示屏技術、專用電器 總成以及傳感器技術四大技術。第三部分是軟件技術,主要有操作系統和各種應用軟件。汽車智能化發展必然會趨向于一機多屏,通過操作系統實現一個車機芯片控制各屏的軟 件。第四部分是兩大支撐技術,分別是人工智能技術和云計算技術。未來智能算法的準 確性決定了不同品牌智能座艙的差異化,是影響車內體驗的關鍵。
ChatGPT 加速落實“汽車機器人概念”。百度于 21 年 8 月舉辦的百度世界大會 2021 上首提“汽車機器人”的概念,并發布了具有跨時代意義的 Apollo“汽車機器人”。今年 2 月 15 日百度旗下智能汽車公司品牌集度計劃年內推出“三體版”汽車機器人,將融合百度文 心一言的全面能力,打造針對智能汽車場景的大模型人工智能交互體驗,支持汽車機器 人實現自然交流的再進階。近日,長安汽車旗下深藍品牌公眾號發布題為“假如把 ChatGPT 裝進長安深藍 SL03”的文章,內容為 ChatGPT 與長安深藍 SL03 車機系統 DEEPAL OS 的一番對話。通過這次對話,DEEPAL OS 將自身特點、優勢逐一說給 ChatGPT 的同時,亦把自己介紹給了消費者和網友。