1月20日,在特朗普宣布啟動總投資5000億美元的“星際之門” (Stargate)AI基礎設施計劃前一天,杭州深度求索人工智能基礎技術研究有限公司——一家此前名不見經(jīng)傳的中國企業(yè),將其開發(fā)的大語言推理模型DeepSeek-R1以開源形式上線。憑借高性能、低成本優(yōu)勢,這個初出茅廬的大模型立刻成為科技圈、投資圈和媒體圈乃至全網(wǎng)關注的焦點。
《中國化工報》記者注意到,春節(jié)假期后第一周,多家上市企業(yè)宣布接入DeepSeek,帶動上證科創(chuàng)板50成份指數(shù)和創(chuàng)業(yè)板指數(shù)均漲超5%。但這場帶著全網(wǎng)起飛的“龍卷風”,吹到石油和化工行業(yè)時卻好像減了速——迄今為止,鮮少有石油和化工企業(yè)加入這場狂歡。
對此,工業(yè)智能化、AI等研究領域的多位專家近日接受記者采訪時表示,DeepSeek橫空出世令人鼓舞,但要解決AI大模型在流程工業(yè)垂直應用的諸多難題并非易事,能否帶飛石油和化工行業(yè),仍需時間檢驗。
DeepSeek能在網(wǎng)絡上掀起巨浪,甚至引發(fā)美國股市中英偉達等科技股出現(xiàn)“歷史性”大跌的核心“殺手锏”,在于其顛覆性的低成本與高效率。
根據(jù)深度求索公司官方放出的數(shù)據(jù),DeepSeek僅用2048塊英偉達 H800圖形處理器(GPU)和557.6萬美元的投入,就訓練出了規(guī)模達6710億參數(shù)的DeepSeek-V3。Open AI創(chuàng)始成員之一Andrej Karpathy表示,按照以往經(jīng)驗,行業(yè)內(nèi)類似能力級別的大模型大多使用約10萬張GPU。例如,Llama 3 405B模型消耗了3080萬GPU小時,而DeepSeek-V3則用了280萬GPU小時,計算需求僅為前者的十一分之一。
此前,市場上也普遍認為同等參數(shù)規(guī)模的GPT-4訓練花費高達10億美元。而DeepSeek推出的DeepSeek-R1模型,推理成本僅為OpenAI最新模型(o1)的三十分之一。許多后續(xù)研究團隊更是用較低的成本成功復現(xiàn)了DeepSeek的模型樣本。
從用戶端來看,這樣的數(shù)據(jù)似乎意味著企業(yè)部署AI大模型的花費從“腳脖子打折”,個人用戶部署一個自有大模型好像也不再是夢想。但這真的意味著誰都“用得起”大模型的時代到來了嗎?
“部署和訓練成本并不等同于應用成本?!币晃籌CT從業(yè)人士表示,DeepSeek成本的降低,主要是靠算法創(chuàng)新對訓練成本進行了壓縮。根據(jù)官方數(shù)據(jù),研究團隊在訓練模型時同時使用了8浮點混合精度訓練技術(FP8)、混合專家模型(MoE)以及自主研發(fā)的多頭潛在注意力(MLA)機制,解決了傳統(tǒng)Transformer模型在處理長輸入序列時的內(nèi)存瓶頸問題,可將顯存占用降至傳統(tǒng)模型的5%~13%。
而應用成本則包括計算設施、傳輸設施的建設成本,數(shù)據(jù)收集與存儲成本等。以煉廠為例,一套催化裂化裝置每秒產(chǎn)生的數(shù)據(jù)點可能就多達上千個,其中既包括每秒或幾分鐘就要采集一次的溫度和壓力數(shù)據(jù),也包括需要長期連續(xù)測定的催化劑活性數(shù)據(jù),還有一些動設備如泵的噪音、振動幅度等其他數(shù)據(jù),一家大型煉廠每年產(chǎn)生的數(shù)據(jù)量可能在千億級字節(jié)。即使DeepSeek依靠算法降低了對GPU服務器集群等計算設施的需求,其數(shù)據(jù)存儲與傳輸設施的剛性投入也難以降低,中小企業(yè)搭建自有大模型仍然存在困難。
圖靈獎得主、Meta AI科學家楊立昆(Yann LeCun)也公開發(fā)聲強調(diào),許多投資者對AI基礎設施投資存在“重大誤解”?!澳切?shù)十億美元的資金中,很大一部分都投入到了推理基礎設施中,而不是訓練。數(shù)十億人運行 AI助手服務需要大量的計算,一旦你將視頻理解、推理、大規(guī)模內(nèi)存和其他功能納入AI系統(tǒng),推理成本就會增加。”楊立昆說。
此前,DeepSeek憑借一句“打動你的是人類集體智慧的回聲”在網(wǎng)絡上引起無數(shù)轉(zhuǎn)發(fā)和討論。出于好奇,記者也嘗試讓它進行了多種風格的寫作,在情感及純文學寫作中表現(xiàn)出色的DeepSeek,在涉及專業(yè)數(shù)據(jù)時卻有些“不知所云”,它給出了歐洲某家煉油廠應用AI優(yōu)化運維的案例,但記者按其給出的數(shù)據(jù)無法查證該煉油廠是否真實存在,“追問”
DeepSeek也無法得到該煉油廠更具體的信息。
“這就是大語言模型(LLM)目前應用的一個大問題——模型幻覺?!敝谢畔⒓夹g有限公司專家委員會副主任、華東理工大學講席教授馮恩波告訴記者,目前LLM僅能勝任知識或數(shù)據(jù)管理方面的工作,但如果讓它產(chǎn)生專業(yè)程度較強的新知識、新內(nèi)容,就需要十分小心,因為“模型幻覺”目前在AI深度學習領域中,仍是難以根除的問題。
其中,一部分幻覺數(shù)據(jù)可以通過核對輸入內(nèi)容和生成內(nèi)容發(fā)現(xiàn),并通過調(diào)整輸入關鍵詞來修正。例如,向AI詢問“中國第一家化工企業(yè)的名字是什么?”,AI可能會由于抓取關鍵詞的不同,給出“1880年成立的上海江蘇藥水廠是中國第一家化工廠”或“始建于1954年的吉林化學工業(yè)公司(中國石油吉林石化分公司前身),是我國第一家化工企業(yè)”的答案,用戶可以通過添加例如“新中國成立前/后”等關鍵詞再進行篩選。
另一部分的幻覺則更加“危險”。“有可能AI會給你一個語言華麗、數(shù)據(jù)漂亮的成果報告,但其中‘融化’了大量不確定性高,甚至在專業(yè)人士看來是謬論的數(shù)據(jù)?!瘪T恩波強調(diào),尤其要謹防AI講話“真假參半”,將虛假的數(shù)據(jù)掩藏在大量專業(yè)詞匯和華麗的語言之后,因為即使是對相關從業(yè)者來說,一一核對與辨別這些案例和數(shù)據(jù)的不合理之處,也是非常困難的事情。如果這些摻雜“幻覺”的數(shù)據(jù)和知識進入數(shù)據(jù)庫,被用在流程行業(yè)實際生產(chǎn)系統(tǒng)的實時優(yōu)化、實時控制等方面,可能造成嚴重后果。
對此,他建議,行業(yè)可以先利用大數(shù)據(jù),建立較為準確的反應機理模型作為“司令員”,在此基礎上應用大語言推理模型作為“參謀長”進行輔助判斷,再由有經(jīng)驗的操作員最終驗證和確定反應流程的實時優(yōu)化與控制該如何進行,從而提高模型應用的準確性與可靠性。
“目前,DeepSeek這樣的大模型也會造成很多‘幻覺’,但企業(yè)需要大模型在決策過程中能保證百分之百的準確性?!北本┲嘘P村科金技術有限公司總裁喻友平說:“大模型在面向企業(yè)端(To B)的應用離理想狀態(tài)還有很大距離,這比面對終端消費者(To C)場景的挑戰(zhàn)要大得多?!?/p>
近年來,能源化工行業(yè)AI大模型應用已經(jīng)取得了初步成績,例如中國石油700億參數(shù)昆侖大模型、中控石化化工大模型、中國海油“海能”人工智能模型,但要實現(xiàn)更加廣泛的應用,仍在可用性與易用性方面面臨挑戰(zhàn)。多位業(yè)內(nèi)專家表示,大語言推理模型在流程行業(yè)的應用仍然需要夯實數(shù)據(jù)和機理的“地基”,以保障其安全性與可靠性。
中國工程院院士、中國石油勘探開發(fā)研究院正高級工程師劉合此前表示,數(shù)據(jù)治理是油氣行業(yè)AI大模型應用的關鍵,如何在保證數(shù)據(jù)安全和保密的前提下,充分整合分散的數(shù)據(jù)并訓練行業(yè)模型,是行業(yè)一直在探索的一個“大問題”。
但對于石化行業(yè)來說,推動數(shù)據(jù)治理,打牢大語言模型應用的“地基”并不容易。一方面,石化行業(yè)的數(shù)據(jù)環(huán)境極為復雜、數(shù)據(jù)來源廣,且受外部環(huán)境影響噪聲高,容易出現(xiàn)數(shù)據(jù)不完整的情況;另一方面,主流深度學習的模型通常在靜態(tài)數(shù)據(jù)集上進行訓練,而實際生產(chǎn)是“牽一發(fā)而動全身”,催化劑中毒、不同批次原料成分的細微改變,都會使設備狀態(tài)及工藝參數(shù)發(fā)生漂移,導致數(shù)據(jù)集逐漸“過期”,優(yōu)化模型也不再有效。劉合在其署名文章《油氣大模型破局需從三方面發(fā)力》中也提出,油氣企業(yè)必須強化數(shù)據(jù)全生命周期管理,從數(shù)據(jù)源頭、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)融合和匹配、數(shù)據(jù)完整性增強、數(shù)據(jù)標注等環(huán)節(jié)嚴格規(guī)范,建立高質(zhì)量的訓練樣本庫,提升數(shù)據(jù)治理能力,從而為行業(yè)大模型提供堅實的數(shù)據(jù)基礎。
“除了挖掘數(shù)據(jù)與場景價值點外,石化企業(yè)應用大模型的另一個重點是安全性和保密性問題。”浙江新和成股份有限公司運營首席專家鄭根土認為,數(shù)據(jù)安全治理也是企業(yè)所擔憂的問題,目前國家已經(jīng)出臺了數(shù)據(jù)流通安全治理的相關法案,但數(shù)據(jù)流通安全治理體系仍然有待構建,相關機制也并不完善,需要企業(yè)、行業(yè)與相關部門多方協(xié)同,提高行業(yè)數(shù)據(jù)流通與應用的監(jiān)管效能。
喻友平表示:“展望未來,AI在To B領域的應用將面臨轉(zhuǎn)型與創(chuàng)新的雙重挑戰(zhàn)。企業(yè)需要逐步建立基于大模型的智能決策系統(tǒng),同時考慮如何增強系統(tǒng)的透明性,確保AI生成內(nèi)容的可追溯性與可靠性。此外,還應密切關注相關法規(guī)政策,以預防不當使用AI技術可能帶來的法律和倫理問題。”(靳雅潔)
業(yè)內(nèi)人士眼中的DeepSeek
大模型行業(yè)的“黑馬”DeepSeek到底有哪些“本領”,將給石油和化工行業(yè)發(fā)展帶來哪些影響?《中國化工報》記者就此采訪了多名業(yè)內(nèi)人士。
廣州石化信息化專家張洪灝:DeepSeek最大的優(yōu)勢在于算法的改進和優(yōu)化,這極大節(jié)省了算力和數(shù)據(jù)量,使得訓練成本大幅降低。同時,其低訓練成本也會降低硬件的投入門檻,從而解決美國限制出口高端GPU“卡脖子”問題。
DeepSeek-R1大模型在解決復雜數(shù)學問題時擁有極強的“拆解能力”,能夠?qū)碗s任務分解為更小的步驟并逐一執(zhí)行,從而提高其準確性。打個比方,ChatGPT像“文科生”,擅長編段子、寫文章,而DeepSeek更像理科生,擅長推理和深度思考。DeepSeek基于思維鏈,模型推理能力和深度思考能力極為強大。其通過建立智能化知識庫,可改變知識的獲取模式,借助語言大模型整合各類專業(yè)知識,更加高效精準地反饋給員工。
未來,科學智能將是更高層次的人工智能大模型,將在新材料科學探索方面,解決科研人員面臨的缺乏數(shù)據(jù)和有效的數(shù)據(jù)分析方法、很多研究依靠經(jīng)驗和試錯方法、理論研究難以用來解決實際問題等痛點,使實驗與模擬能力大幅提升,加速化工新材料、煉油化工催化劑的研發(fā)進程。
北京化工大學教授、博士生導師辛春林:在推動石油和化工行業(yè)轉(zhuǎn)型發(fā)展方面,DeepSeek將提升企業(yè)的數(shù)據(jù)分析與決策能力,助力研發(fā)與可持續(xù)創(chuàng)新,同時優(yōu)化生產(chǎn)運營與成本控制。
DeepSeek擁有強大的深度學習與自然語言處理能力,可以快速處理和分析海量行業(yè)數(shù)據(jù),包括生產(chǎn)數(shù)據(jù)、市場數(shù)據(jù)、供應鏈數(shù)據(jù)等,幫助企業(yè)更準確地預測市場需求、優(yōu)化生產(chǎn)計劃、調(diào)整供應鏈策略,從而提高運營效率和經(jīng)濟效益。
DeepSeek通過分析原油價格波動、成品油市場需求變化等數(shù)據(jù),能為企業(yè)提供決策支持,幫助制定更合理的采購和銷售策略。
DeepSeek開源模型的社區(qū)協(xié)作機制還加速了技術的迭代和創(chuàng)新。具體到新材料研發(fā)領域,DeepSeek可以通過高效文獻檢索與知識整合,快速獲取最新的研究成果和技術信息,幫助研究人員了解行業(yè)前沿動態(tài),啟發(fā)創(chuàng)新思路。同時,DeepSeek還可以協(xié)助進行實驗方案優(yōu)化與預測,為研究人員提供優(yōu)化的實驗方案和預測結果,提高研發(fā)效率和成功率。
另外,在生產(chǎn)運營與成本控制方面,DeepSeek可對石化生產(chǎn)過程中的各種數(shù)據(jù)進行實時監(jiān)測和分析,及時發(fā)現(xiàn)生產(chǎn)過程中的異常情況和潛在問題,幫助企業(yè)采取有效的措施進行調(diào)整和優(yōu)化,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。同時,它還能幫助企業(yè)更準確地掌握原材料采購成本、能源消耗成本等信息,制定合理的成本控制策略,降低生產(chǎn)成本和碳排放。
江蘇華昌化工股份有限公司有關負責人:DeepSeek等深度分析模型在化工行業(yè)應用前景廣闊,有望推動全產(chǎn)業(yè)鏈智能化升級。在生產(chǎn)環(huán)節(jié),DeepSeek類模型可通過對反應參數(shù)、設備狀態(tài)等海量數(shù)據(jù)的實時分析,優(yōu)化工藝條件,提升原料轉(zhuǎn)化率,降低能耗;在質(zhì)量控制方面,結合計算機視覺技術,可實現(xiàn)對產(chǎn)品微觀結構的智能檢測,提升缺陷識別準確率;在預測性維護領域,通過建立設備數(shù)字孿生模型,提前預警關鍵機組故障,降低非計劃停機損失;在安全管控層面,可整合DCS、視頻監(jiān)控等多源數(shù)據(jù),實現(xiàn)動態(tài)風險預警,減少人為誤判風險。隨著化工行業(yè)數(shù)字化轉(zhuǎn)型深化,深度分析技術將成為實現(xiàn)智能制造、綠色生產(chǎn)的關鍵驅(qū)動力。
西南化工研究設計院變壓吸附所副總工程師梁軍:如果DeepSeek能夠提供接口,接入石化行業(yè)現(xiàn)有的服務程序中,將會更加適應行業(yè)特點,為行業(yè)提供更加精準的規(guī)劃、資訊等方面的幫助。
捷誠能源首席分析師閆建濤:DeepSeek強大的邏輯推理和預測功能,能為我們這些做能源深度研究的人提供更加有益的建議。在企業(yè)發(fā)展戰(zhàn)略層面,DeepSeek能夠提供更充分的數(shù)據(jù)支撐、更多的情景分析,市場分析和營銷預測也會更精準;在生產(chǎn)經(jīng)營層面,能夠引導企業(yè)管理更規(guī)范,風險控制更及時,從而降低全產(chǎn)業(yè)鏈成本。
清華大學新聞學院教授沈少陽:如果說傳統(tǒng)的生成式大模型是“兼職助理”,那么推理大模型就是“正式員工”,并且是一位對工作可以“兜底”的員工,包括理解需求、推理使用場景、尋找生產(chǎn)資料,并輸出完整的結構化內(nèi)容。強大的推理大模型是“善解人意”的好助手,但它會因為“太聰明”而自作主張,出現(xiàn)對提示語“視而不見”的情況。因此現(xiàn)階段還需保持耐心,隨時接受推理大模型“罷工”,因為推理大模型也需要“調(diào)教”。(耿明月 郁紅)
本文刊登于《中國化工報·智能制造》周刊,熱線010-82037404