OpenAI進入第9天,公司宣布最先進的模型o1系列已通過應用程序接口(API)全面向第三方開發者開放。這一發布標志著開發者能夠將OpenAI的頂尖技術無縫集成到現有的企業級應用或面向消費者的工作流程中。
可是,在OpenAI忙著發布會的時候,一位OpenAI前員工自殺離世。
據美國消費者新聞與商業頻道(CNBC)報道,26歲的美國OpenAI公司前研究員Suchir Balaji近期被發現在他位于舊金山的公寓內自殺身亡。舊金山警察局表示,初步調查顯示,“沒有發現謀殺的證據”。
此前,Balaji曾公開指責OpenAI 的 ChatGPT 應用程序違反了美國版權法。他曾在個人博客寫道:OpenAI 在數據的使用方面存在不合理性,因為它未經許可就使用受版權保護的材料訓練其模型,侵犯了從程序員到記者等無數原創作者的知識產權。《紐約時報》也表示:Balaji 擁有“獨特且相關的文件”,可以對OpenAI的訴訟起到關鍵性作用。在一定程度上,Balaji成為了吹哨者的角色。
因此,Balaji去世的消息讓全球科技圈頗為震動,世界首富、特斯拉CEO埃隆·馬斯克(Elon Musk)也關注并轉發了相關報道,發出一個“唔”(Hmm)做出評論。
OpenAI 發言人在電子郵件中說:“今天得知這一令人難以置信的噩耗,我們感到非常悲痛,在這一艱難時刻,我們向 Suchir 的親人表示同情。”
他的去世再次引起了人們對AI道德和合法性的激烈辯論。那么,生成式AI究竟如何侵權?Balaji的一聲哨響能喚醒多少人?以下:
1
他的悲劇性死亡為何震驚了科技界?
Suchir Balaji是誰?他是一名印度裔美國人,曾就讀于加州大學伯克利分校學習計算機科學,大學期間在OpenAI和Scale AI實習。畢業以后,他選擇加入了OpenAI,先后參與過WebGPT的研發,后來又加入GPT-4的預訓練團隊、o1的推理團隊以及ChatGPT的后訓練團隊,是 21 世紀最具變革性的技術之一 ChatGPT 背后的主要架構師之一。
而這位26歲的年輕人也是OpenAI最直言不諱的批評者。他在OpenAI工作了四年多,最終選擇離開了這家公司,理由是擔心這家人工智能巨頭涉嫌在未經適當同意的情況下使用受版權保護的數據。
在接受《紐約時報》采訪時,他解釋了像GPT-4 這樣的系統如何通過完整復制它們所訓練的數據來學習。Balaji在X發布了一篇文章,詳細說明他的擔憂,也闡明了 AI 訓練過程的復雜性。
文章中寫道:“雖然生成模型很少產生與其任何訓練輸入基本相似的輸出,但訓練生成模型的過程涉及復制受版權保護的數據。如果這些副本未經授權,這可能會被視為侵犯版權,具體取決于模型的特定使用是否符合'合理使用'的條件。由于合理使用是根據具體情況確定的,因此無法對生成式 AI 何時符合合理使用條件做出寬泛的聲明。”
文章引用了1976年《版權法》第107條中對「合理使用」的定義:
(1)使用的目的和性質,包括該使用是否具有商業性質或是否用于非營利教育目的; (2)受版權保護作品的性質; (3)所使用部分相對于整個受版權保護作品的數量和實質性; (4)該使用對受版權保護作品的潛在市場或價值的影響。
Suchir Balaji強調,合理使用是一項平衡測試,需要權衡四個因素。ChatGPT 的訓練數據不公開,可能看不到對市場價值的影響。《生成式AI對在線知識社區的影響》寫明,在ChatGPT發布后,Stack Overflow的訪問量下降了約12%,每個主題的提問數量也有所下降。
這種影響體現在各個方面,作業幫助網站Chegg在ChatGPT影響其增長后,股價下跌了40%。
最關鍵的是,這種利益侵害還在某種“許可”的情況下完成的。OpenAI和谷歌等公司大多和Stack Overflow、Reddit、美聯社、News Corp等簽訂了數據許可協議。鑒于數據許可市場,在未獲得類似許可協議的情況下使用受版權保護的數據進行訓練也構成了市場利益損害,因為這剝奪了版權持有人的合法收入來源。因為,ChatGPT可能創造了與原始內容形成直接競爭的替代品。
因素(3):所用部分的數量和實質性與整個受版權保護的作品相關
如果輸出內容不直接復制受版權內容保護的數據,則屬于“合理使用”;如果模型的訓練輸入包含了受版權保護數據的完整副本,這不利于「合理使用」。
模型訓練過程中,如果輸出的信息熵(H(Y))低于或等于訓練數據的真實信息熵(H(X)),則表明模型輸出中包含了較多的訓練數據信息。降低輸出的信息熵可以減少模型輸出中的隨機性,從而減少“幻覺”(即虛假信息)的發生。因此,大家會采用基于人類反饋的強化學習(RLHF),傾向于降低模型的熵值,以提高輸出的準確性和可靠性。
可是,即使模型輸出中不直接復制受版權保護的數據,訓練數據中的信息仍可能以某種程度被使用,這可能分散融入到整個輸出內容中。通過分析輸出中的熵值,可以估計模型輸出中有多少內容對應于訓練數據集中的信息,從而評估版權內容對模型輸出的影響。這么來看,無論如何解釋都難以找到支持「合理使用」主張的依據。
在這個過程中,這位年輕人還指出了一個更大的問題:隨著人工智能技術越來越多地取代現有的互聯網服務,它們經常會產生虛假甚至完全捏造的信息,研究人員稱這種現象為“幻覺”。而這種情況會讓互聯網變得更糟。
Balaji強調說,他的觀點是針對的不僅僅是 OpenAI,而是整個生成式 AI。 在他去世前發布的最后一篇 X 帖子中反思道:“我最初對版權、合理使用等知之甚少,但在看到所有針對 GenAI 公司的訴訟后,我變得很好奇。當我試圖更好地理解這個問題時,我最終得出結論,對于許多生成式 AI 產品來說,合理使用似乎是一個非常不可信的辯護,因為基本原因是它們可以創造出與它們所訓練的數據競爭的替代品。”
不得不承認,Balaji見解加重了 AI 開發人員和版權所有者日益增長的擔憂,即需要大量數據來訓練復雜模型可能與內容創作者的權利相沖突。
2
哨聲響起,究竟能喚醒多少人?
在過去兩年時間里,Balaji并不是唯一指出版權問題的人,許多個人和企業起訴了包括OpenAI 在內的各種人工智能公司,認為他們非法使用受版權保護的材料來訓練他們的技術,提起訴訟的人包括計算機程序員、藝術家、唱片公司、書籍作者和新聞機構。
其中,《紐約時報》應該其中表現最為積極的。去年,《紐約時報》在美國法院起訴OpenAI和微軟公司,指控這些公司未經許可使用其數百萬篇文章訓練強大的人工智能模型,成為可靠信息的來源。但兩家公司都否認了這些說法。
此前,Balaji曾在采訪中強調,威脅更為緊張,ChatGPT 和其他聊天機器人正在破壞個人、企業和互聯網服務的商業生存能力,這些個人、企業和互聯網服務創建了用于訓練這些人工智能系統的數字數據。“對于整個互聯網生態系統來說,這不是一個可持續的模式。”他告訴紐約時報。
與此同時,很多曾在 OpenAI 和其他科技公司工作過的研究人員警告說,人工智能技術可能會造成嚴重傷害。但這些警告大多是關于未來風險的,比如人工智能系統有朝一日可能會幫助制造新的生物武器,甚至毀滅人類。
沒有法律的束縛,OpenAI、谷歌、微軟等公司會走向何方呢?現在看來,OpenAI正在奮力擺脫“非盈利”束縛,急迫地尋找商業化的方向。
在剛剛結束的2024年紐約時報DealBook峰會上,奧特曼親口表示,起步時,OpenAI并沒有計劃成為一家產品公司,也不了解我們需要多大規模的資本。如果當時知道這些,OpenAI一開始就不會選擇非營利結構。
最近,OpenAI連續召開12天發布會的企劃,已經讓公司商業化野心藏不住了。與此同時,OpenAI CFO薩拉·弗萊爾(Sarah Friar)在最近的采訪中還提到:OpenAI的產品已經達到博士級別,可以每個月收取2000美元。CFO進一步地表示,如果AI真的能像一個博士級別的助手,在任何事情上幫助我,每月收取數千美元的費用是合理的,這能更好地反映AI技術能為公司提供價值,對這個世界也會是有意義的。“OpenAI可以根據客戶從他們產品中獲取的價值來向客戶收費。”
可以看到,Balaji的哨聲雖然沒有叫醒OpenAI,但好在叫醒了更多的人。扎克伯格也開始要求政府阻止OpenAI從非營利實體向營利實體過渡的計劃,并稱,OpenAI不應該被允許無視法律,將其作為慈善非營利機構建立起的資產據為己有,并將其用于潛在的巨大私人收益。
設想一下,取代你工作的AI輸出的內容可能是你曾經辛辛苦苦完成的,它學習了之后就“堂而皇之”據為己有。對于公司而言,自己曾經合法授權的數據,在AI學習之后,成為刺傷自己的利劍。
面對強大技術帶來的深遠后果,總會有一批科學家陷入道德困境和內心沖突的掙扎時刻。Suchir Balaji的離世只是掀起AI倫理的一角,技術未來走向可能越來越不以人類意志為轉移。那么,人類與AI究竟誰會是未來主宰者?
Refe rences:
? ? ? ? ? ?
1、X、OpenAI、Google等
2.interestingengineering: OpenAI whistleblower Suchir Balaji found dead amid copyright clash
3.Mashableindia: What OpenAI Whistleblower Suchir Balaji Exposed About AI's Dark Side Before He Was Found Dead
?????????????
4.OpenAI吹哨人之死:ChatGPT的陰暗面 by:AI燎原
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.