機器學習 (ML) 正在成為審計領域的重要資源。它可以提高財務審計師、內部審計師、鑒證審計師和稅務審計師管理大量數據的效率。此外,機器學習還可以幫助合規審計師驗證是否遵守法規,并支持信息系統審計師分析復雜的數據集。機器學習能夠大大提高多個專業領域的審計效率和有效性。對于審計師而言,理解機器學習如何融入審計過程及其對行業專業人士(特別是提供公正驗證的外部審計師)的影響,以及在實施過程中可能遇到的障礙至關重要。
什么是機器學習?
人工智能 (AI) 先驅 Arthur Samuel 將機器學習定義為“賦予計算機無需明確編程即可學習能力的研究領域”。它涉及創建無需人工干預即可進行預測或分類項目的智能模型。這些模型從大量數據中學習,自行發現模式和鏈接。機器學習可以分為兩大類:監督學習和無監督學習。根據 IBM 的定義,監督學習是一種使用標記數據集來訓練算法以對數據進行分類或預測結果的機器學習方法。這意味著存在已知結果的設定輸入。無監督學習涉及未標記的數據。該模型在沒有任何特定指引的情況下尋找模式和聯系。
機器學習如何使審計師受益?
機器學習擴大了開展審計的可選范圍。它利用復雜的計算機算法和和分析工具從大規模數據集中提取更全面的信息,從而改進了傳統的審計方法。這提高了審計流程和結果的效率,同時也保證了審計質量的一致性。
圖1描述了機器學習的各種類別,并說明了其在審計語境中的潛在優勢。
運營效率
機器學習可自動執行數據處理任務,使得審計師可以更高效地分析大型數據集。與依賴抽樣方法不同,審計師可以分析完整的數據集。機器學習技術使審計師能夠檢測記錄中的違規行為和異常模式,而傳統的數據分析工具則有助于實時可視化和檢查大量數據集合。審計師經常管理來自各種來源的大量結構化和非結構化數據,包括財務系統、企業資源規劃 (ERP) 系統和外部數據庫。與傳統統計方法相比,機器學習算法(例如神經網絡和決策樹)在分析這些數據集時提供了更高的效率和準確性。
機器學習算法可以有效地自動執行多項常規審計任務,包括從財務報表、發票和其他文件中提取數據,以及執行數據輸入控制、分類和核對。通過自動化這些程序,審計師可以大大減少對手動工作的需求和花在管理任務上的時間,從而使他們能夠專注于更重要的活動,例如分析和決策。此外,通過自動化單一的流程和數據處理,這降低了審計中出現人為錯誤的可能性。機器學習算法可以檢測模式、做出預測,并通過減少手動工作量和最大限度地減少與手動流程相關的錯誤來提高審計質量。
預測準確性
欺詐檢測是審計的重要組成部分,而機器學習為提高欺詐檢測能力提供了強有力的方法。研究表明,通過評估大量交易數據,利用機器學習技術識別欺詐行為具有潛力。機器學習算法可以分析交易數據、用戶行為和其他相關因素,以識別可能表明存在欺詐活動的異常和可疑模式。
在不同的背景下使用各種類型的模型。例如,在商業環境中考慮健康保險索賠的背景下,監督學習模型可用于基于歷史數據預測未來索賠的發生頻率。它們可以檢測欺詐性索賠并根據風險概況對客戶進行細分。一項名為《使用機器學習檢測健康保險索賠中的欺詐》的研究表明,邏輯回歸模型的準確率為80.36%,精確率為97.62%,召回率為80.39%,F1分數為88.17%,特異性為80%。另一項使用MATLAB進行的研究顯示,支持向量機方法能夠準確識別財務報表,錯誤率低于10%,識別準確率超過90%。
機器學習風險和審計流程
機器學習可以通過多種方式增強審計流程,成為提高效率的寶貴工具。然而,將機器學習引入審計也帶來了必須解決的風險(圖2)。
數據質量風險
機器學習系統依賴于數據,如果數據不干凈,模型的表現就不會好。這符合“垃圾進,垃圾出”(GIGO)的原則,這意味著系統輸出的質量直接取決于輸入的質量。在機器學習領域,GIGO原則強調了高質量數據對于實現準確可靠結果的重要性。
安全和隱私風險
機器學習系統本質上是機器。盡管旨在提供預測能力,但系統的核心架構很容易受到攻擊。網絡攻擊可能是為了對模型進行逆向工程,即操縱模型訓練的數據模式以產生不利結果并生成不準確的數據。這會導致可能根據不準確的財務報告做出錯誤的決策,導致業務效率低下,最終造成收入損失和聲譽受損。
偏見風險
根據輸入數據的性質,所創建的模型可能會在不知不覺中助長偏見。機器學習模型通常用于欺詐檢測。這些模型從歷史數據中學習,因此如果訓練數據偏向過去欺詐活動中觀察到的某些模式,則該模型可能會不公平地針對符合這些模式但合法的交易。信息繭房可能出現在數據收集、預處理和模型訓練等各個階段。
在這種情況下,“信息繭房”一詞指的是強化用于訓練機器學習模型的數據中預先存在的偏差。當模型從扭曲或不具代表性的數據中學習,然后利用這種偏差做出決策時,就會出現偏差。例如,在欺詐檢測中,如果一個模型主要針對電子交易進行訓練,它可能會將現金交易誤認為欺詐異常,因為它們不太常見。這種有偏見的決策會對審計流程產生影響,因為它會增加誤報,增加欺詐調查團隊的負擔,并可能擴大審計范圍以解決由有偏見的結果造成的低效率問題。
為了減輕這些影響,審計師必須確保在訓練中使用多樣化的數據,并定期更新模型以反映新的交易模式。未經檢查的有偏見的模型可能會帶來嚴重后果,包括給金融機構帶來法律和聲譽風險。
例如,如果銀行業的機器學習模型主要基于電子交易數據進行訓練且很少接觸現金交易,那么它可能會表現出偏差,將現金交易歸類為異常,因為現金交易在訓練數據集中出現的頻率很低。這可能會導致現金交易中誤報的發生率增加,同時可能忽略不符合訓練數據中觀察到的模式的欺詐性電子交易。為了減輕這種偏見,審計師必須保證訓練數據是廣泛的,并涵蓋各種交易類型。此外,持續監控和更新機器學習模型對于適應新興交易模式和減輕可能影響審計結果的偏見至關重要。
如果金融機構的人工智能系統被認定存在偏見,它們可能會面臨訴訟、聲譽損害和罰款。這可能是由于算法決策無意中歧視消費者而引起的。有偏見的機器學習模型可能會導致運營效率低下。過度將合法交易歸類為欺詐可能會增加欺詐調查團隊的工作量,從而導致審計范圍擴大。
審計方法
機器學習系統的復雜和動態特性源于它們對大量數據集和可隨時間調整的復雜算法的依賴。這使得傳統的審計方法(通常是靜態和手動的)效率較低。國際最高審計機構組織 (INTOSAI) 強調,機器學習系統存在風險,包括數據安全問題、決策中的潛在偏見以及嚴格的項目管理和記錄實踐的必要性。
審計師必須采用專門為機器學習系統設計的新技術和框架來應對這些挑戰。例如,ISACA強調透明度、問責制和徹底了解機器學習生命周期的重要性。鼓勵審計師關注數據質量、模型開發流程以及可能嵌入機器學習算法中的潛在偏見。
建議采用一種務實的審計方法,即開發一個強調記錄、問責制和質量保證的機器學習生命周期模型。這種方法對于讓審計師與組織保持一致,并確保他們進行的審計全面有效至關重要。
調整審計方法以有效評估機器學習系統需要了解這些系統帶來的獨特風險和復雜性、利用新的審計框架和準則,并強調在整個機器學習生命周期中持續記錄和問責。這種轉變對于審計師跟上人工智能和機器學習技術的進步至關重要。
數據審計
審計師需要確保用于訓練和運行機器學習模型的數據可靠、公正、符合監管要求且質量高。可以使用以下數據審計方法來實現這一點:
確保為機器學習建模提供的數據準確、全面且統一。必須注意信息的完整性和準確性,包括數據源的可靠性,以確保數據源和人工智能模型之間不存在差異。必須建立訪問和質量控制以維護人工智能模型中的數據完整性,并應建立機制來規范模型向終端用戶輸出的信息,以防止在將其應用于決策和判斷之前進行任何操縱
根據用于訓練和評估的數據質量,驗證機器學習模型是否按預期執行。
確保機器學習系統內的數據收集、處理和利用方法透明且符合監管標準。
安全和隱私評估
機器學習工具功能強大,但它們通常依賴于敏感數據,例如財務信息或個人醫療記錄。機器學習模型應該是安全的,并且不應暴露在任何危及隱私的漏洞中。安全和隱私評估涉及檢查系統保護數據和確保隱私的效果。這種方法的目標包括:
驗證是否已實施適當的控制措施,以將敏感數據和機器學習模型的訪問限制在授權人員或系統范圍內
確保機器學習系統遵守相關安全和隱私法規,包括歐盟GDPR,以降低法律和聲譽風險
評估數據在存儲、傳輸或處理過程中的加密,以防止數據被攔截或未經授權的訪問
模型驗證和測試
模型驗證和測試方法通過使用不同的示例對機器學習模型進行測試來檢查模型對結果的理解和預測能力。此方法的目的是確保模型給出準確、無偏見的答案。此方法的目標包括:
評估機器學習模型根據已知結果做出的預測的正確性和精確度
評估機器學習模型在各種條件下(例如噪聲或不完整的數據)的性能,以確保在現實場景中的可靠性
調查機器學習模型的錯誤類型和來源,以了解其局限性和潛在的改進領域
結論
將機器學習融入審計實踐,使審計師能夠提高審計的準確性、速度和質量。通過利用機器學習算法,審計團隊可以超越傳統的代表性抽樣技術,審查整個群體是否存在異常。這種轉變允許進行更有針對性和更有目的性的測試。此外,機器學習模型可以從審計師的結論中學習,并將類似的邏輯應用于其他具有類似特征的項目。雖然用于審計的機器學習技術仍處于起步階段,但大型組織正在積極探索其潛力。然而,挑戰依然存在,包括解決可解釋性約束和確保機器學習工具充分發揮其功能。審計的未來在于利用機器學習的力量來改善決策支持和簡化流程,最終提高該行業的有效性和效率。
來源:ISACA微信公眾號
編輯:孫哲
目前180000+人已關注我們,您還等什么?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.