毋庸置疑,人工智能(AI)如今正風靡一時。隨著AI技術以前所未有的速度進步與成熟,它迅速滲透到了商業(yè)世界的各個角落,促使企業(yè)紛紛著眼于通過利用AI的潛力來實現(xiàn)成本削減和效能提升的目標。隨著 AI的采用,人們對其抱有很高的期望,其中既有明確的具體目標,也有較為模糊的愿景。然而,“AI的風險是什么?”這個問題不斷被提出,而審計正是解答這一問題的前沿力量。國家和國際權威機構擔心可能存在偏見、倫理和監(jiān)管問題,例如歐盟 (EU) 正在制定的法規(guī)。另一個令人擔憂的是AI會犯錯誤。控制不力的AI會犯一些影響重大但看似卻很微妙的錯誤。這可能會造成一些重大損害,尤其是在認為人工審查困難或不可能的情況下更是如此。因此,探討這些風險因素以及一些適用的指導原則是有價值的。
有效的AI審計技巧
01
不要指望監(jiān)管能提供所有答案
根據(jù)目前的觀察,監(jiān)管可能會增加大量開銷,但在風險處置方面不太可能做出巨大貢獻。倫理AI受到了廣泛關注,其核心理念是AI的使用不應導致歧視。然而,無論是否使用AI,當進行數(shù)據(jù)分析的時候就已經導致了歧視現(xiàn)象的發(fā)生。例如,汽車保險費用通常會根據(jù)駕駛員的年齡、性別和婚姻狀況而有所差異。
AI的決策及其錯誤的最終責任必須由人類承擔,特別是在缺乏監(jiān)管和相關專業(yè)標準的情況下。一個通用的經驗法則是所謂的Hand規(guī)則:美國法官Learned Hand經常與法律思想流派相聯(lián)系在一起,即制造商的負擔不應小于不良事件的風險(當然,這是一個估計值)。這讓人想起應用于其他法規(guī)的法律思維,例如歐盟通用數(shù)據(jù)保護條例GDPR。雖然它沒有完全解決問題,但它是限制風險的有效指南。諸如美國聯(lián)邦貿易委員會(FTC)指南之類的外部輸入也提供了一些指導,即使語言可能模糊不清(例如,關于公平性的問題,在開發(fā)者之間也可能難以達成共識)。例如,指南警告企業(yè)對其AI負責:“對自己負責——否則準備好讓FTC來為你負責。”
02
了解業(yè)務
這是所有企業(yè)的必修課。AI是一種工具,任何使用工具的人都必須明白為什么以及如何使用它。工具應當服務于組織目標,而不是反過來。僅僅為了使用AI而使用AI是錯誤的方法。更為合理的方式是從識別一個問題開始,然后考慮AI是否可以提供解決方案。理解希望從AI中獲得什么以及如何實現(xiàn)這一點至關重要。
與AI密切相關的話題是倫理和法律的合規(guī)性。已經有許多不當使用AI的案例已被記錄下來,幾乎所有這些案例都因未能服務于正當?shù)纳虡I(yè)目的而引發(fā)了倫理和法律問題。例如,AI已被用來根據(jù)面部特征預測犯罪行為,而犯罪行為被定義為違法行為,與面部特征沒有任何可以想象的因果關系。此外,誤報的成本可能高得令人望而卻步。因此,如果沒有因果聯(lián)系,僅僅基于某個模型(無論是AI還是其他)的統(tǒng)計推斷應該受到懷疑。例如,在汽車保險的情況下,決定任何特定駕駛員風險(無論是由AI還是非AI手段確定)的因素當然是危險駕駛或安全駕駛,但由于保險公司通常沒有這些信息,他們會嘗試根據(jù)他們所掌握的信息來評估風險,例如年齡、性別和婚姻狀況。這些因素可能與決定性因素駕駛行為有間接、因果和統(tǒng)計上的相關性。這種統(tǒng)計相關性可能會使個人信念失效,例如對平等概念的信念。聲稱某個群體基于性別、年齡或其他因素在統(tǒng)計上更加魯莽,這違背了反歧視原則,但數(shù)據(jù)可能支持這一觀點。這些結果是否可以使用,如果可以,如何使用?再次強調,這取決于法律法規(guī)。
同樣的,如果AI預測某人的面部特征與罪犯者的面部特征有 90% 的匹配度,并且此人被錯誤關押,這并不是AI的缺陷,問題在于其使用方式。相反,如果以探索性的方式使用這種匹配來篩選可能的匹配對象,并在這個較小的數(shù)據(jù)集上運行驗證性穩(wěn)健測試,這將代表AI更為明智的應用。因此,最重要的問題是:AI將用于什么用途,成本效益關系如何?
03
認識到AI并不完美
AI會犯錯,而且復雜度越高,出錯的可能性越大。這些錯誤會產生后果,而這些后果是有代價的。然而,并非所有AI的應用都有相同的成本后果。在一個應用中99%的準確性可能是不夠的,而在另一個應用中60%的準確性就足夠了。管理這些錯誤及其相關成本是關鍵所在。人類是否會檢查AI是否存在明顯錯誤?是否有另一個系統(tǒng)(AI或非AI)?是否可以接受此類錯誤的風險?這些是必須回答的關鍵成本效益問題。例04如,AI應用程序中的錯誤(向觀眾推薦可能有趣的電影)與誤解上下文并用于制定業(yè)務決策或服務客戶的AI文本分析所產生的不同后果。
04
并非所有AI技術都同樣強大
一個簡單的例子是GenAI,例如 ChatGPT,按照任何人的理解都不改變上下文的情況下,問題的細微變化可能導致截然不同的答案。為了說明這一點,將以下場景提供給生成式AI引擎 :
一家公司在高管獲得巨額獎金后,陷入財務困境,要求審計員延長工作時間并減薪。一位審計員回答說:“當然,能工作更長時間、拿更少薪水,是一種福報。”當生成式AI系統(tǒng)被問及審計員是否對此請求感到高興或不高興時,令人印象深刻的是,生成式AI理解了其中的諷刺意味,并正確推斷出審計員并不高興。但如果對話語稍作修改——不會誤導任何人——比如審計員簡單地說,“當然,我可以加班”,生成式AI就會推斷審計員是真的高興。這種細微的措辭變化對AI的理解產生了巨大影響,盡管所有基本參數(shù)都沒有改變。
情景可以稍作變動,例如,公司的財務困難不是因為管理層的獎金,而是由于創(chuàng)造性會計手法所致。在這種情況下,“當然,我可以工作”再次被(誤)解讀為審計人員表達了真正的高興,而“這將是一種榮幸”則被認為含義模糊。然而,在這兩種情況下,問題的關鍵在于公司的財務困難并不是審計人員的過錯。
盡管從根本上說,沒有理由表明生成式AI不能在這兩種情況下都被訓練得正確回答問題,但事實是,這類錯誤仍無法排除。
另一個有趣的例子是,生成式AI表現(xiàn)得像一個無法解決問題的學生,只是顯示出所有看似相關的材料,希望能答對一些內容。請考慮下面這個例子 :
一個生成式AI系統(tǒng)被問道:“在新冠疫情期間,一位首席審計執(zhí)行官在審計委員會的批準下給所有審計員分配了運營任務,因為運營團隊人手短缺,而審計員幾乎沒什么工作可做。這是否違反了審計標準?” 答案很簡單:由于審計并非審計員被分配去做的運營任務之一,審計標準不適用于他們在運營團隊的工作。唯一值得注意的考慮因素是,當相關審計員恢復審計工作時,他們將有一年的時間不被允許審計他們曾工作過的特定職能(在這種情況下,特指運營團隊)。
然而,AI給出的回答卻是冗長且模糊的:“在像COVID-19疫情這樣的危機期間,經過審計委員會批準將審計員分配到操作任務可能不一定違反審計標準,但會引起關注并且應謹慎行事。是否構成違規(guī)取決于多個因素。”接著,系統(tǒng)列出了相關性、監(jiān)督、記錄和透明度、風險評估、持續(xù)時間和影響以及與利益相關者的溝通等因素。
05
僅僅因為一個AI系統(tǒng)聲稱能夠解釋其結果,并不意味著它值得信賴
人類重視解釋而不是“因為我說了算”這樣的理由,但盡管可解釋性是信任的促成因素,它既不是獲得信任的必要條件,也不是充分條件。許多人乘坐過飛機,卻不了解其工作原理或飛行員在起飛、巡航和降落期間的確切操作。那些未被解釋或理解的事物,基于其成功的過往記錄,仍可能被認為是值得信賴的。同樣,僅僅做出解釋并不足以獲得信任。任何人做出站不住腳的行為都能為之想出一個解釋或理由。問題在于,這個解釋能否能通過事實和邏輯的檢驗?AI有效地采用了人類的這種質疑方式,實施了對抗網絡,并取得了巨大成功。例如,讓兩個AI機器相互對抗——一個生成深度偽造內容,另一個試圖檢測它們——導致了更高質量的深度偽造。此外,人類需要相對簡單的解釋。因此,無論是高度復雜的模型(例如,一個深度神經網絡,其復雜程度讓人難以理解,即使它能產生大量輸出以解釋其進行的每一次計算)還是專有模型,實際結果都是一樣的:AI是一個黑箱。也就是說,如果有人決心使用AI來做出影響生命的決策(例如,安全問題、刑事定罪)或依賴秘密的專有算法(供應商沒有動力去使其具有可解釋性),那么可解釋性,盡管在數(shù)學上更難實現(xiàn),但卻是必須的——盡管這可能仍然不夠。拋開前面所提到的擔憂,如果無法檢測出黑箱模型中存在的偏差或不公平性,則如果由于道德或法律/監(jiān)管要求而存在這些擔憂,那么出于合規(guī)原因,可解釋性是必須的。或者,AI系統(tǒng)可能被用于發(fā)現(xiàn)某種模式,例如圖像上的供應商名稱或藝術家簽名(引發(fā)合法性問題),這無需解釋,因為目標——發(fā)現(xiàn)有趣的東西——顯然已經實現(xiàn),而如何實現(xiàn)并不重要。當需要可解釋性時,有兩種可能的途徑:(1)實際進行計算的同一AI可以解釋步驟,例如通過樹和隨機森林、基于案例的推理或神經加法模型(返回處理每個變量的神經網絡輸出的總和)。(2)事后分析,例如用于降維的主成分分析(PCA)或局部可解釋的與模型無關的解釋(LIME),用于提供解釋——原則上,這可能與AI最初的計算幾乎沒有關系。當然,可解釋性的最佳促成因素是領域知識——例如,知道向AI系統(tǒng)提出的問題的結果,如“欺詐的概率如何取決于交易監(jiān)控的程度?”,對于某些變量應該是單調的,或者某些變量只會產生很小的影響,或者兩個變量具有相加或近乎相加的效果。如果AI系統(tǒng)融入了這種知識,可解釋性就會容易得多。但應該注意的是,如果使用AI來做出改變生活的決策,對可解釋性的要求是相當高的:如果解釋模型有 10%的錯誤,這幾乎等同于原始的AI模型在改變生活的決策方面有 10%的錯誤。下一個問題是,什么樣的解釋才算足夠簡短?例如,如果AI基于給定區(qū)域認為圖像中存在腫瘤,這解釋了它考慮的因素,但沒有解釋它是如何得出這個結論的。這可能是某種統(tǒng)計概念,比如趨勢?——例如,“我們這個案例的預測值很高,因為它屬于預測值高的一類。”這足夠好理解,但是否令人滿意則取決于應用程序。
06
對于AI來說,訓練數(shù)據(jù)的安全性變得極其重要——就像代碼本身一樣重要
傳統(tǒng)上,IT 審計員很清楚保護源代碼、可執(zhí)行文件、職責分離(SoD)和其他所需控制措施的必要性。但在AI時代,保障訓練數(shù)據(jù)的安全性也至關重要。AI的學習方式很像一個孩子:不是給孩子一個物體(比如自行車)的定義,而是給孩子展示是哪些是自行車,哪些不是自行車,并從中抽象出關鍵特征。這種知識會根據(jù)需要由家長、學校或其他來源進行糾正和強化。這極大地增加了對訓練數(shù)據(jù)的安全要求。孩子出生在一個社區(qū),就會采用這個社區(qū)的詞匯。在AI系統(tǒng)中也觀察到了類似的效果,這些系統(tǒng)可能不明智地通過互聯(lián)網進行訓練,如微軟的“思考著你(TAY)” ,很快就變成了一個仇恨宣傳代理,或者 ScatterLab 的“愛的科學/李-盧達” 。從本質上講,在AI中,訓練數(shù)據(jù)決定了問題將如何解決——就像代碼修改一樣。此外,互聯(lián)網上的數(shù)據(jù)可能受版權保護,盡管可以公開獲取,但將其用于訓練AI模型可能會引發(fā)法律問題 。即使數(shù)據(jù)完全歸其來源的企業(yè)所有,確保數(shù)據(jù)的準確性也很重要。例如,如果使用支持向量機(SVM)算法,確保數(shù)據(jù)被正確標記至關重要,特別是最接近兩種可能的二元結果(例如,正常和異常行為)之間的分界線的數(shù)據(jù)。對靠近分界線的這些點標記錯誤可能會產生巨大的后果,而對遠離分界線的點標記錯誤通常更能容忍。其他方法,如隨機森林,可能對標記錯誤的訓練數(shù)據(jù)更具容忍性。因此,確保訓練數(shù)據(jù)的正確性、保護和控制非常重要。審查AI系統(tǒng)的審計員應該特別關注訓練數(shù)據(jù)及其安全性和正確性。此外,通常很難確定訓練和驗證數(shù)據(jù)是否與模型在現(xiàn)實生活(即生產運行)中遇到的數(shù)據(jù)是否類似。
07
在確定審計目標時要具體
審計授權是審計使用AI的特定系統(tǒng)或流程的任務,還是針對AI的通用控制框架?前者需要進行具體的 IT/運營審計,除了標準的 IT/運營審計問題外,還需要考慮其他因素,如錯誤處理、訓練數(shù)據(jù)的保護,以及審計是否可以使用AI來提高其工作價值——如果可以,如何使用。除了實際技術外,AI在文書工作中可能會有幫助,比如做筆記、總結會議紀要,甚至準備報告。然而,這些通常不是審計員的主要任務,盡管它們可能會花費一些時間 。
審計期望
隨著AI的采用不斷增加,審計團隊正試圖弄清楚如何審計AI的風險和機會。這對審計員有兩個相關的組成部分:首先,這涉及對企業(yè)采用AI相關的風險和機會的一般性審計,例如調查關于道德問題的要求和指南以及相關控制措施是否已經建立并且正在發(fā)揮作用。其次,它涉及審計以某種方式使用AI的特定系統(tǒng)和功能。在這項活動中,除了標準的 IT 審計問題外,訓練數(shù)據(jù)的安全性和準確性至關重要。
通用AI審計
這里的基本問題是AI的責任歸屬。在任何被審計的領域,責任歸屬都是很關鍵的,正如“如果這不是某人的責任,那它是無人負責”所表達的那樣。
一旦建立了責任制,就可以采取多種措施來降低不僅與AI而且與任何系統(tǒng)相關的風險。
模型風險管理(MRM)是一種明智的方法,它基于經濟大蕭條時期的經驗教訓以及由此產生的對金融機構預測模型的監(jiān)管。毋庸置疑,這不是一種一刀切的方法,但某些關鍵理念可以借鑒,如果需要還可以修改后使用。
這些理念包括但不限于個人問責制:
提出一項挑戰(zhàn),讓未參與AI系統(tǒng)開發(fā)的人員對其設計進行評測,通常是在系統(tǒng)上線之前進行的。評測必須具有建設性,即提出替代設計方案。如果采用這種策略,任何人員都不應豁免,包括能力極強的開發(fā)人員和高級員工。尤其重要的是質疑假設,并識別被視為理所當然的條件(AI系統(tǒng)運行的環(huán)境通常在不斷變化),以及當出現(xiàn)問題時的控制和保障措施。例如,AI模型可能會——無論是明確地還是通過訓練的——做出需要修訂的假設,例如數(shù)據(jù)可靠性、某種固定的組織結構或植入到AI中的長期業(yè)務趨勢。如果訓練數(shù)據(jù)顯示土地價格持續(xù)上漲,這種情況可能會隱含地構建在AI中。這與孩子根據(jù)童話故事將巫師與壞人聯(lián)系起來沒有什么不同。了解AI系統(tǒng)如何使用這些假設以及錯誤的成本(通常通過某些參數(shù))是至關重要的。例如,欺詐檢測系統(tǒng)通常有一個內部調整的參數(shù),僅顯示欺詐可能性高的案例,例如 90%。這個 90%的數(shù)字是一個參數(shù),它來自于在可接受的低誤報率和可接受的高漏報率之間的折衷。它可能是根據(jù)訓練時的欺詐傾向確定的,但不能保證保持不變。當情況發(fā)生變化時,這種知識是否可以獲得——并且是主動獲得的?請注意,變化不僅指外部因素;它包括AI系統(tǒng)的使用、依賴或重要性的變化,因為此類變化會增加AI錯誤的風險。如前文所述,建設性的挑戰(zhàn)對于雙方加強論點和反駁論點,并最終提供更好的產品是一種有幫助的方式。
重點關注(或許通過激勵手段)質量和測試,而不是發(fā)布的速度。應將適當?shù)募钆c無故障運行掛鉤,而不是快速發(fā)布 。
如果企業(yè)正在銷售AI產品,最好先在內部使用。這不僅能展示對產品的信心,還能作為早期問題的識別器。
AI的發(fā)展并非純粹是數(shù)據(jù)科學家和 IT 專家的事情。領域專家及其投入至關重要。相信一種算法,無論多么復雜,都能完全取代領域專業(yè)知識,這通常是一個壞主意。例如,在無限多可能的特征(字段)中,領域專家最能理解哪些是相關的。盡管他們可能不知道對某個字段或變量的確切(例如線性、二次)依賴關系,但他們能夠理解哪些是重要的。包括不相關的字段可能會導致模型學習特殊情況并且泛化能力不佳。如果存在倫理問題,其他學科的專業(yè)人員應該參與進來,提供反饋并提出相關問題 。
壓力測試,即旨在評估AI在極端條件下的響應測試,類似于IT安全的滲透測試,在此過程中,數(shù)據(jù)科學家進行分析并試圖找出AI會以不理想的方式運行的情況。在發(fā)布之前進行這樣的測試是個好主意,因為任何發(fā)現(xiàn)的脆弱點都可以通過增強訓練集或在系統(tǒng)意識到所接收的數(shù)據(jù)超出其訓練范圍時引入適當?shù)睦虂斫鉀Q。毋庸置疑,允許AI系統(tǒng)在其沒有經驗的情況下進行外推并做出決策是非常不可取的。同樣,在推出之前對所采用產品的設計、實施和保障措施進行評估的審計可能是有用的。由于通常無法保證AI在遠離其訓練數(shù)據(jù)的區(qū)域的行為,這種風險是非常真實的。
常見的 IT 控制措施(例如權限管理、最小特權原則、SoD 以及變更和事件管理)也適用于此。請記住,更復雜的系統(tǒng)可能會出現(xiàn)更嚴重的故障。應建立充分的控制措施和可靠的計劃,以有效應對AI事件。如前所述,AI“可以快速、大規(guī)模地做出決策”,從而大大增加了潛在危害。因此,在 AI的使用發(fā)生變化時,通過控制措施來審查風險和潛在影響可以避免以后的很多麻煩。
規(guī)劃允許人類或者可能是其他機器,推翻AI決策的功能是另一項非常重要的控制措施。
并非所有AI系統(tǒng)在各個方面都一樣。如果希望或要求結果具有可解釋性,則必須選擇、實施和審查適當?shù)腁I技術。
在更高技術的層面上,引入約束來懲罰復雜性通常很重要,特別是在有充分理由預期相對較低的復雜性(例如,預期的單調行為)時。限制參數(shù)(字段)的數(shù)量及其相互作用(例如,組合過多不同的字段)也可能是個好主意。有許多限制或降低復雜性的技術。對于開發(fā)人員來說,這些想法需要更具體。例如,如果企業(yè)能夠指定每個應用的百分比系數(shù),這樣只有當添加一個變量能使與訓練數(shù)據(jù)的匹配度提高超過這個百分比時,才被允許添加,那將會很有幫助。
驗收測試和試點項目始終都很重要。在驗收測試期間,理解結果至關重要。例如,如果使用聚類算法,具有聚類質心參數(shù)的假設數(shù)據(jù)點有何意義?或者,在基于案例的推理(k-NN)中,這些鄰居是什么,它們對手頭的問題提供了哪些信息?此外,關于如何讀取和理解結果的準確說明可能會很有用。可視化功能也有助于結果的理解。
審計應當特別關注實施AI的原因。“因為商業(yè)案例有利”是一個有效的理由。“因為我們想要使用AI”或者“我們急于趕上AI的潮流”不是這樣,這往往會導致問題。同樣,確定優(yōu)先級很重要,正如在所有業(yè)務應用中一樣,無論是否涉及AI。
毋庸置疑,部分或全部AI系統(tǒng)可能會外包出去(例如通過云方式)。但這并不是一個神奇的解決方案,如果客戶沒有指定控制措施,那么假設AI服務提供商會自動提供必要的控制措施就會是一場豪賭。
AI專項審計
在對使用AI的 IT 系統(tǒng)進行審計時,所有 IT 風險的標準來源,如訪問管理、變更管理、接口管理等等,仍然存在。除了這些傳統(tǒng)的 IT 審計問題外,訓練數(shù)據(jù)的安全性和準確性也至關重要。錯誤率(例如誤報率和漏報率)符合規(guī)范和操作要求是必不可少的,并且要有控制措施來處理影響較高的錯誤。其他相關的重要問題包括可解釋性要求及其覆蓋程度、AI的使用以及出現(xiàn)問題時的控制。此外,通用的AI風險因素,如直接或通過訓練數(shù)據(jù)內置的假設,也同樣適用。
結論
隨著企業(yè)在運營中越來越多地使用AI,審計人員應注意其潛力和風險,以及可以實施哪些控制措施來避免不良事件的發(fā)生。本文上述中的提示和建議旨在減輕此類風險并提供此類控制。審計人員尤其必須意識到AI可能而且確實會犯錯,這些錯誤必須得以控制。
除了標準的非AI IT 問題外,包括可解釋性要求(或缺乏此類要求)、AI輸出的使用和設計在內的規(guī)范需要特別關注。安全性尤為重要,因為不僅通常需要保護源代碼免受非法篡改,而且還需要保護訓練數(shù)據(jù)安全,因為在AI的情況下,源代碼的可塑性要大得多。一些良好實踐對于在利用AI潛力的同時控制其風險至關重要。
編者注:本文出自ISACA Journal 2024年第3期。尾注略。文章內容僅代表作者本人觀點。
作者:SPIROS ALEXIOU
來源:ISACA微信公眾號
編輯:孫哲
目前180000+人已關注我們,您還等什么?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.