文章來源丨Christoph Lechner, Nikolaus Lang, Siegfried Handschuh, Olivier Bouffault, and Julian Cooper,慎思行采編翻譯
個人微信丨hello_SSX
GenAI真的能解決戰(zhàn)略管理任務嗎?
生成式人工智能(GenAI)是一種基于語言基礎模型的人工智能技術,可以生成新的內(nèi)容和創(chuàng)意,包括對話、故事、圖像、視頻和音樂。但對于公司高管和投資者所需的戰(zhàn)略管理任務,其應用前景尚不明朗。本文重點探討這些模型獨立完成戰(zhàn)略管理任務的能力,以期在未來實現(xiàn)自動化。
戰(zhàn)略管理難以自動化的原因何在?
根據(jù) Müller-Stewens和Lechner的定義,戰(zhàn)略管理是實現(xiàn)公司戰(zhàn)略以達成關鍵利益相關者既定目標的過程。它不同于設計、采購、生產(chǎn)、物流、營銷和銷售等單一職能。現(xiàn)代戰(zhàn)略管理典型任務包括市場研究、情景規(guī)劃、企業(yè)戰(zhàn)略制訂、并購決策、商業(yè)模式設計及重組轉型等。
戰(zhàn)略管理任務的自動化復雜性任務,在不同程度上需要三個核心要素:(a) 多步驟和多層次推理;(b) 情境依賴性;(c) 人類行為因素。即使是面對OpenAI 的 GPT、Anthropic 的 Claude、Meta 的 Llama、Google 的 Gemini 或 Mistral 的 Mixtral of Experts等尖端 GenAI 模型,也仍然面臨這些挑戰(zhàn)。下文將解析實踐者應對每個維度的技術方案。
1. 多步驟和多層次推理
多步驟和多層次推理通常采用分步提示策略。具體要求包括:要求 大語言模型(LLMs) "逐步展示推理邏輯",在提示中列出步驟清單,以及將各步驟拆分為獨立提示序列。雖然理論上可以通過自動化實現(xiàn)多提示任務分解,但中間步驟如果出現(xiàn)計算錯誤,仍需人工介入校正性能。分步提示策略存在天然局限:單個提示方法受到上下文窗口和輸出窗口大小的限制,而過多提示分割則容易導致LLMs 遺忘先前步驟的上下文數(shù)據(jù)。
2. 情境依賴性
戰(zhàn)略管理應用需要GenAI 模型訪問額外的(通常是敏感的)情境數(shù)據(jù)。例如,在評估并購交易是否具有吸引力時,需要調(diào)用公司的內(nèi)部財務數(shù)據(jù)和戰(zhàn)略備忘錄。為此,業(yè)界通常采用檢索增強生成(RAG)架構。該技術在生成過程中添加信息檢索組件,使 LLM 能夠查詢?nèi)我庖?guī)模的外部數(shù)據(jù)源,并將檢索結果整合至用戶提示的上下文窗口(見圖 1)。該方案對戰(zhàn)略管理非常重要,它允許GenAI 模型訪問敏感的公司數(shù)據(jù)庫(無需微調(diào)),降低 "幻覺 "概率,甚至支持溯源響應數(shù)據(jù)來源。典型案例是博世與 Aleph Alpha 合作開發(fā)的 BoschGPT 。
3. 人類行為因素
了解和預測可能的人類行為(團隊內(nèi)部動態(tài)、客戶期望、文化背景等)在許多戰(zhàn)略管理分支學科中都發(fā)揮著重要作用。例如,企業(yè)的定價策略可能基于對消費者支付意愿的預期,但同時也要考慮市場上的競爭對手將如何對自己的定價策略做出回應,最后還要考慮消費者在做出二次決策時的權衡過程。雖然可以向模型提供預設假設作為指導,但真正的自動化需要 LLM 基于原始歷史定價數(shù)據(jù),提供自主假設。當前訓練這些人類行為直覺的最佳方法是提供案例研究作為情境提示(即多樣本實驗),或根據(jù)任務特定數(shù)據(jù)進行微調(diào),并由人類專家標注相關的缺失行為要素,但均非完美解決方案。
4. 以模型性能為基準
作為簡要補充,了解 GenAI 社區(qū)如何評估和衡量這些難以自動化的能力表現(xiàn)非常有用。雖然映射關系不是一一對應,但也相差不遠。
對于綜合知識和推理能力,每個領先的 LLM 都會定期公布其 ARC、HellaSwag 和 MMLU 分數(shù)。ARC 指的是 AI2 推理挑戰(zhàn)賽,這是一個由小學選擇題組成的數(shù)據(jù)集。HellaSwag是一個常識推理和邏輯問題數(shù)據(jù)集。而MMLU指的是多任務語言理解(Multi-task Language Understanding)側重于研究生級別學術課題的數(shù)據(jù)集,更強調(diào)知識理解和檢索。為了評估模型通過 RAG 架構整合語境的能力,我們的最佳實踐指標與分類機器學習中的混淆矩陣類似,后者更依賴于具體語境,而不是一門精確的科學。我們既要評估 LLM 回答提示問題的質量("生成"),也要考慮檢索到的內(nèi)容與該答案的相關程度("檢索")。
對于生成,我們衡量的是答案的事實準確性及其與問題的相關性。而對于檢索,衡量的則是信噪比(上下文精確度)以及檢索到內(nèi)容是否足以回答問題(上下文召回率)。
對于社會推理,當前的基準數(shù)據(jù)庫如SocialIQA被用來測試模型能否預測故事后續(xù)發(fā)展或解釋行為動機。
三個實驗的設計和研究發(fā)現(xiàn)
我們關注這些模型在實際戰(zhàn)略管理任務中的表現(xiàn),這些任務需要綜合多項能力。為了測試這一點,我們設計了三個實驗來反映復雜程度和價值遞增的戰(zhàn)略管理任務:(1)編制市場調(diào)研檔案;(2)評估商業(yè)戰(zhàn)略;(3)執(zhí)行買方盡職調(diào)查所需的分析。這些實驗任務代表了戰(zhàn)略和投資團隊日常工作的核心內(nèi)容。
實驗 1:編制市場調(diào)研檔案
設計:要求 ChatGPT-4 執(zhí)行波士頓咨詢公司(BCG)內(nèi)部團隊就印度農(nóng)用化學品市場編寫的實際卷宗中提供的三項具體分析:(1)按地區(qū)總結全球農(nóng)用化學品的定性洞察;(2)將 2018-2023 年的全球農(nóng)用化學品市場規(guī)模繪制成按地區(qū)劃分的堆疊條形圖;(3)深入研究印度市場,并分享一些關于市場吸引力和競爭格局的分析。我們在輸入上下文中附加了-BCG 團隊使用的核心資料《全球農(nóng)用化學品市場報告》。
研究發(fā)現(xiàn):首先,僅憑ChatGPT-4 輸出即可合理推導出BCG 編寫的執(zhí)行摘要關鍵復合年增長率(CAGR)數(shù)值完全一致。其次,該模型能夠解析和檢索 200 頁行業(yè)報告中的文本、圖表和數(shù)據(jù)表。第三,單次提示即可生成多個細節(jié)層面的分析結果。
結論:實驗 1 表明,LLM 已經(jīng)能夠在戰(zhàn)略管理的背景下,通過有限的數(shù)據(jù)收集和推理,自動完成大規(guī)模的綜合任務。未來的研究可探索結合RAG 架構的性能擴展,例如,賦予模型訪問行業(yè)報告數(shù)據(jù)庫的權限。如果檢索器設計精良,是否可以有效地移除人工干預(即無需提供相關源材料)。
實驗 2:通過咨詢案例訪談解決決策問題
設計:咨詢案例訪談通常分為四個部分:(1)向候選人提供案例背景,并詢問解題思路;(2)反復交談,定位核心問題;(3)分享數(shù)據(jù)資料,要求候選人計算并提供定量洞察;(4)準備向客戶高管匯報的結論。我們要求 ChatGPT-4 扮演候選人,參與BCG已存檔的某超市冷凍食品面試案例,并根據(jù)人類申請者的評分標準(如邏輯性、假設驅動性)逐項評估回答。
研究結果:第(1)部分,ChatGPT-4 能夠構建近似于 MECE(互斥窮盡)的框架,但假設驅動性不足(未聚焦案例要求的盈利能力,未討論收入與成本關系),因此未達到及格分數(shù)。第(2)部分,面試官建議對定價進行調(diào)查。該模型迅速提供了一份簡明扼要的驅動因素清單,但缺乏與案例本身的直觀聯(lián)系,也未像優(yōu)秀應聘者那樣提出下一步建議以得出結論。第(3)、第(4)部分,模型的表現(xiàn)一般處于及格水平。我們提供了兩組數(shù)據(jù),每組數(shù)據(jù)都能得出正確的數(shù)學結果和基本的”結論(例如,冷凍披薩下降了 50%,這是價格問題,而不是成本或數(shù)量問題),很可能與優(yōu)秀候選人的表現(xiàn)相當。此結果超出預期,因為該模型此前對定性問題的回答未能展現(xiàn)相關能力。
局限性:盡管從情境的角度來看,該模型的整體表現(xiàn)相當不錯,但它完全忽略了頂尖候選人所應具備的一些行為特質。例如,主動提出假設驅動的后續(xù)步驟以主導面試進程,展現(xiàn)求知欲與探索性思維、,即使通過預熱提示提供引導,,此類行為仍無法實現(xiàn)。
結論:實驗 2 的結果表明, LLMs 在有人類參與的情況下執(zhí)行情景規(guī)劃任務的潛力。雖然在提出解決抽象戰(zhàn)略問題的方法方面還不夠完善,但如果在人類的指導下完成第一步,這些模型可以高效支持后續(xù)分析,從而快速驗證假設并找到解決方案。這些結果與過往問題解決任務研究的結論一致。
實驗3:買方盡職調(diào)查的財務建模實驗
設計:為測試當前GenAI 模型能夠在多大程度上處理并購盡職調(diào)查的復雜性和量化嚴謹性,我們使用了斯坦福大學商學院金融建模課程的案例研究——關于Stride Rite 于 2005 年收購 Saucony 的交易。我們要求 ChatGPT-4執(zhí)行課程作業(yè)要求的一系列分析:(1)建立股權結構表;(2)合并利潤表和資產(chǎn)負債表;(3)計算貼現(xiàn)現(xiàn)金流(DCF);(4)推薦 Stride Rite 公司應提供的每股收購價。
研究結果:與之前的測試不同,本次實驗突出了 ChatGPT-4 的局限性,而非優(yōu)勢。盡管如此,還是有一些值得一提的亮點。首先,該模型能高效解析案例研究文件(一份 pdf 文件,一份 excel 文件)并組織信息以回答特定問題,例如 "提取買賣雙方普通股和完全稀釋股數(shù)"或甚至 "構建雙方股權結構表"。其次,模型具有一定的自我診斷能力。例如,當模型計算出合并協(xié)同效應收益為負值時,它在輸出中主動警告“該結果需合理性驗證”。
局限性:我們的發(fā)現(xiàn)可分為兩類:一是多步驟量化推理缺陷。我們要求模型完成兩項需要多步驟量化推理的任務:合并利潤表和計算貼現(xiàn)現(xiàn)金流。在這兩種情況下,即便拆解步驟粒度(單次提示 vs 多次提示)或人工引導,仍無法得出正確財務模型結果。
二是結果穩(wěn)定性問題,盡管我們知道這些模型是隨機的,預計到不同環(huán)節(jié)的結果會有一些差異,但在提示和上下文數(shù)據(jù)完全相同的情況下,輸出結果差異顯著。例如,在實驗接近尾聲時,我們要求模型提供 Stride Rite 應向 Saucony 提供的每股建議價格。最初的回答是 28 美元/股,這不正確但與正確答案 35 美元/股比較接近。然而,當提示 "你能再試一次嗎?"時,模型計算出的價格為 96 美元/股。
在本實驗中,我們發(fā)現(xiàn)多步驟推理的一個主要限制因素是遺忘。雖然當我們將指令分解成各個步驟時,這些多步驟任務的成績普遍有所提高,但很快達到極限,即模型進行正確的中間計算所需的粒度水平依賴大量的提示。
結論:實驗 3 的結果表明,當今的 LLM 在處理涉及多個推理步驟的真正復雜任務方面存在明顯的局限性——若一次性輸入過多步驟,模型將無法處理;若如果過于分解步驟,模型會遺忘前期上下文。可通過工程化方案(如上下文編碼與動態(tài)回傳)部分緩解,但本質能力仍需模型迭代提升風險和挑戰(zhàn)。戰(zhàn)略管理決策往往會對公司發(fā)展產(chǎn)生重大影響。因此需深入理解當前 GenAI 應用的潛力和缺陷。
Gen AI應用的潛力和缺陷
戰(zhàn)略管理決策往往會對公司發(fā)展產(chǎn)生重大影響。因此需深入理解當前 GenAI 應用的潛力和缺陷。
1. 固有偏見實驗
GenAI 模型帶有與預訓練期間使用的數(shù)據(jù)集和自然語言任務相關的固有偏見。這些偏見可能因上下文窗口、檢索增強和微調(diào)的選擇而加劇或部分緩解。雖然這仍然屬于研究前沿,但已有基準數(shù)據(jù)集可以幫助從業(yè)人員(和 LLM 核心平臺開發(fā)人員)評估性能進展,例如詞嵌入關聯(lián)測試(WEAT)、刻板印象測試集(StereoSet) 和 公平人臉識別基準(FairFace)(Schroder,2022 年)。這僅僅是個開始,建議優(yōu)先選擇在偏差基準以及推理、上下文檢索等更成熟指標上表現(xiàn)出色的 GenAI 技術來提供幫助。
2. 人機協(xié)同的必要性
雖然當今的 GenAI 模型在人機協(xié)同下表現(xiàn)驚艷,但反事實是:案例訪談和盡職調(diào)查實驗都不可能通過純粹的自動化實現(xiàn),這具有兩面性。積極面是,該技術將增強而非替代戰(zhàn)略管理細分領域;但從規(guī)模的角度來看,這又是一種限制:在特定任務中,人機協(xié)同大幅限制了這些技術的潛在效益。例如,如果盡調(diào)分析能夠真正實現(xiàn)自動化,企業(yè)將能持續(xù)評估所有并購機會,而不是依賴人工篩選目標清單。
3. 結論與展望
本研究得出兩大核心結論。
首先,當今的 LLM 已經(jīng)能夠自動完成大規(guī)模的綜合任務(如市場調(diào)研),并能進行一些有限的數(shù)據(jù)匯總和推理,但需人機協(xié)同處理多步驟任務或人類行為理解(如戰(zhàn)略情景規(guī)劃)。
其次,假設驅動性復雜多步驟推理仍無法實現(xiàn)(如買方盡職調(diào)查),即使有人工參與,也不足以引導現(xiàn)成的 LLM 得出正確的結果。
對于今天的領導團隊而言,問題仍然聚焦兩個方面:(a) 通過設計專用系統(tǒng)(例如獨立微調(diào)量化模塊、定制數(shù)據(jù)庫的RAG檢索)能否提升性能,(b) 這些 LLM 的下一版本(例如,OpenAI 的 GPT-5、Meta 的 Llama-3)將如何自然提升多步推理與穩(wěn)定性。
通過深化此類實驗,可以初步驗證專用系統(tǒng)的價值。在市場調(diào)研方面,通過 RAG 架構賦予模型訪問行業(yè)報告數(shù)據(jù)庫的權限,并嘗試移除人工提供原始材料的環(huán)節(jié)。對于案例面試(以及一般的商業(yè)情景規(guī)劃用例),我們可以重新實驗,并對模型進行深度微調(diào),以幫助其 "習得"頂尖候選人的行為模式。最后,在盡職調(diào)查方面,探索針對不同環(huán)節(jié)的定制 GPT(如合并利潤表),并采用基于嵌入向量的搜索算法降低上下文數(shù)據(jù)的內(nèi)存負擔。
LLM 和生成式人工智能在商業(yè)領域有著巨大的價值,當前應用只是冰山一角,這些技術將成為更多商業(yè)轉型的基礎。在未來數(shù)月和數(shù)年內(nèi)轉型將聚焦于基礎智能任務和流程的自動化上,即涉及信息檢索、數(shù)據(jù)綜合以及有限的規(guī)劃推理的任務,此類流程耗時有望減少 90% 以上,數(shù)以千計的流程將實現(xiàn)效率躍升。在我們的實驗中,市場調(diào)研檔案就是一個典型的例子。
高級智力任務(需多步驟量化推理、長短期記憶以及對人類行為的深刻理解)也將在 GenAI 中發(fā)揮作用。但正如實驗(2)、(3)所示,要在這些領域取得成效,仍需要在 LLM 技術突破與系統(tǒng)工程化部署。商業(yè)問題的核心問題將變成:應該在什么時候開始認真投資?一個簡單的比喻是:應該等待更聰明的學生(新一代LLM)出現(xiàn),還是投資構建現(xiàn)有模型上的復雜系統(tǒng)?后者短期風險小,但靈活性差,前者適配未來戰(zhàn)略但需技術成熟周期 。
對我們來說,這又回到了一個關于人工智能應用優(yōu)先級的總體框架,它可以歸結為對兩個核心問題的權衡。首先,應用人工智能的流程能創(chuàng)造多少商業(yè)價值?其次,在獲取相關數(shù)據(jù)方面,是否擁有可防御性的優(yōu)勢?隨著LLM的成熟和性能的提高,專用系統(tǒng)或微調(diào)投資的需求將越來越少,使得必要投資遞減。與此同時,若當前已經(jīng)擁有大量任意格式的文本化相關數(shù)據(jù),那么 LLM 可成為挖掘此類數(shù)據(jù)價值的工具,從而放大投資回報。因此,擁有數(shù)百筆交易數(shù)據(jù)(擁有可防御性獲取渠道)的大型投資基金或將很快投資這種先進系統(tǒng),而普通企業(yè)并購部門則會理性地等待底層人工智能技術的進一步成熟。
編輯 | Jiaru
進一步交流
進入專業(yè)社群展開深度討論
慎思行通過微信等平臺覆蓋超過10萬戰(zhàn)略人、咨詢?nèi)说雀黝悓I(yè)人士。我們也構建了專業(yè)社群,推動戰(zhàn)略與咨詢領域的問題討論、信息交流和機會分享,社群已有超過5年歷史,并成為了頂尖專業(yè)人士感知市場前沿,獲得實踐經(jīng)驗的首要選擇。入群請?zhí)砑由魉季⑿牛⑻峁┟?/p>
現(xiàn)在微信公眾號更改規(guī)則,如果你不特地點進來,很可能看不到我們的推送了。希望喜歡【慎思行】的讀者朋友們將本號【設為星標★】,方便找到我們;也歡迎點擊右下角的【在看】。
>為什么說智能體是生成式AI的下一個前沿領域?
>人工智能將如何改變企業(yè)戰(zhàn)略?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.