前段時間,有位同事找我討論了一個問題。
他說,有一件突發的事,需要跨部門合作。但是,這件事并不是對方的本職工作。所以,他有些不好意思開口,就來找我商量,可不可以設立一筆小的獎金,讓對方能更有動力地做這件原本不在工作范圍內的事。
嗯。承擔額外的工作,拿走額外的獎金。聽上去,非常合理。
但是,我還是制止了。同時,我也強調,千萬不能隨便在公司里發錢。很多時候,我們希望一個人去做某件事,就很自然會想到用金錢激勵。可是,這種方法其實并不可取。
為什么?
用現在最流行的人工智能語言來說,這就相當于是亂設了激勵函數。
什么意思?
打個比方。小孩子學走路。
爸爸媽媽們是怎么教小孩子學走路的?不是告訴他如何發力、如何邁腿。因為他還聽不懂。而是給他設定了一個獎懲機制。走得好,爸爸媽媽會抱。這是獎勵。摔倒了,屁股會痛。這是懲罰。有了這套獎懲機制,孩子就會不斷練習,并根據獎勵和懲罰的反饋不斷嘗試調整姿勢,直到在某一個瞬間,突然就“自然而然”地學會了走路。
這種學習方式,就叫做:強化學習。而這套獎懲機制,就叫做:激勵函數。
那一旦設錯了激勵函數呢?得不到玩具,會哭。因為玩具,是哭的獎勵。得不到關注,會叫。因為關注,是叫的獎勵。
就像一個打掃房間的AI,設定了“看不見灰塵”的激勵函數,可能就會學會“關掉房間里的燈”。醫療診斷的AI,設定了“準確診斷率”的激勵函數,學會“只做籠統的診斷”。棋盤游戲的AI,設定了“不輸棋”的激勵函數,學會“無限延長游戲”或是“找方法暫停游戲”。
這種現象,也叫做:獎勵破譯(Reward Hacking)。發現并利用捷徑和漏洞,從而獲得獎勵。即便這不是設計者的真實意圖。
育兒如此。AI如此。一家公司也是如此。
公司里的員工們,最終會做出什么樣的行為,采用什么樣的協作方式,歸根到底,也都是由激勵函數塑造出來的。
比如,如果真的因為某件事,給某個人發了一筆額外的錢,那他肯定會很高興,可能還會對公司心懷感激,也為公司多爭取一些利益。但是,等過一段時間,又有另外一件計劃之外的事情需要他幫助的時候,他可能也會期待能有一筆額外的錢。對這筆錢的“多少”,也會有自己的衡量標準。上次是300塊錢,這次是多少?什么。150?這次的事,明明比上次復雜。怎么著也得是500。怎么會是150。
最終,公司的內部,就會生長出一套脫離于激勵制度的價格體系。
每一個人,每一種活兒,都明碼標價。但凡不給錢的事,就沒人重視,沒人干。每件事都得給錢。而且,不能給得“不公平”。
我們曾經講過這么一個故事。
一位創業者,在一位員工入職5周年的時候,一個高興,就送了一臺當時最新的iPhone 8。第二年,又有幾位員工滿5周年了。接著發。第三年,第四年,第五年。十個人,五十個人,一百個人。接著發吧,100多萬的成本。不發了吧,員工又會憤怒,覺得憑什么別人有,我沒有。憑什么到我這兒就停了。
很多公司,在啟動新項目的時候,也會這樣。比如,只要參加新項目,就有1000塊錢的獎金。到最后,名義上的“獎金”,就變成了實質上的“工資”,起不到任何激勵作用了。
所以,請記住,輕易不要在正常的激勵制度之外,再制定任何的獎勵制度。
當然,隨意發放金錢,只是一種設錯激勵函數的情況。有些公司,還存在著另外一種更加麻煩的,由老板主導的激勵函數。
比如,平時的工作中,一位員工有多大的權力,全看老板的態度。出了問題,需要承擔多大的責任,全憑老板的站隊。到了年底,能拿多少錢,全憑老板的判斷。因為老板會說,我每次下班都看到小王工作得特別辛苦,一直在干活兒,我不管,無論如何都得想辦法給他發點獎金。
一旦一家公司的激勵函數,是由老板的主觀判斷決定的,那員工就會想盡辦法“管理”老板的判斷。
現在,你可能就能理解,為什么會有人喜歡在老板面前表演了。
因為在一家激勵函數取決于老板的判斷力的公司里,表演,就是最有效的工作方式。
只要老板在場,原本工作效率不高的員工,也會表現得格外勤奮。只要老板還沒下班,那我也不下班,看誰能坐得住。只要老板參會,那就踴躍發言,平常懶散拖沓一點沒關系。反正演出圓滿了,獎金、晉升、資源分配也就到手了。
而這種職場版的“獎勵破譯”一旦被找到,被允許,很快就會像病毒一樣擴散開來。因為看到“表演者”獲得獎勵,其他員工也會被迫加入表演。就像一個班級里,老師只獎勵那些舉手發言的學生。那所有學生都會拼命舉手,卻不關心答案是否正確。
直到,公司形成一種“會說比會做重要,表現比產出重要,形式比內容重要”的價值觀。直到,員工失去對真實價值的感知能力,開始相信表演本身就是工作的重要組成部分,甚至是工作的全部。直到,老板住進了自己“精心編織”的信息繭房。
PR部門會說,你的所有決策,都是準確無比的。身邊的同事會說,你是偶像,是榜樣。
最終,整個公司只向上負責,卻不帶來實際的市場成果。老板也感受不到市場上的風浪,反而感覺自己英明神武。
是的。有時,我們會疑惑,為什么有的人這么喜歡拍馬屁。其實,這不是“天生”的,而是被老板的激勵函數所催化出來的。一旦激勵函數出了問題,通過強化學習訓練出來的公司就會出問題。就像訓練AI一樣。
那么,對于一家公司來說,真正具有價值的激勵函數,到底是什么?
答案只有一個。那就是:市場。
市場的反應,客戶的反應,用戶的反應,這些數據反饋,才是真正的激勵函數。因為只有這樣,員工的利益才和市場的真實利益是一致的。
盈利多少,給予相應獎勵。客戶數量增長多少,也給予相應獎勵。不應該有人在中間做主觀的判斷,說什么“他太辛苦了,得多給一點”,或者“雖然他沒完成任務,但是表現出了潛力”。這些都不行。
在真正具有價值的激勵函數下,不斷訓練。假以時日,公司才有機會擁有扎根臨時基地、不斷進取的沖勁。而不是變成一家,所有人都在圍著老板打轉的公司。
當然,這就意味著,從今往后,老板得把自己的個人喜好,死死地關在籠子里了。
即便這極其的反人性。
但請你相信,難而正確的事,往往都是反人性的。
這些思考,與你共勉。
P.S.
很多人相信,人工智能是未來。卻不知道,該如何擁抱這個未來。
很多人認為,人工智能是機會。卻不知道,如何才能不錯過機會。
所以今年,我和我的團隊,也正式推出了,2025“進化的力量·劉潤年中大課”。
6月7日,在上海影城,我會用一天的時間,和你好好聊聊人工智能。
不做現場直播。也不做事后回放。就讓我與你,獨家分享。
6月7日,就讓我們,現場見!
*個人觀點,僅供參考。觀點/ 劉潤主筆/ 二蔓/ 歌平版面/ 黃靜
這是劉潤公眾號的第2560原創文章
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.