1
問題的提出
(一)基本案情
原告殷某某系一名配音演員,其經朋友告知,發現自己的聲音被AI化,他人利用該AI聲音制作的作品在多個知名APP廣泛流傳,原告表示從來沒有授權過任何人或公司將自己的聲音AI化,但在一些短視頻平臺用戶發布的視頻中,使用的卻是基于原告聲音制作的AI配音。經聲音篩選和溯源,原告發現上述作品中的聲音來自被告一北京某智能科技公司運營平臺中的文本轉語音產品,用戶通過輸入文本、調整參數,可實現文本轉化成語音的功能。
原告曾接受被告二北京某文化傳媒公司的委托錄制錄音制品,被告二為錄音制品的著作權人。后被告二將原告為其錄制的錄音制品的音頻提供給被告三某軟件公司,允許被告三以商業或非商業的用途使用、復制、修改數據用于其產品及服務。被告三僅以原告錄制的一部錄音制品作為素材進行AI化處理,生成了案涉文本轉語音產品并在被告四上海某網絡科技公司運營的云服務平臺對外出售。被告一北京某智能科技公司與被告五北京某科技發展公司簽訂在線服務買賣合同,由被告五向被告三下單采購,其中包括了案涉文本轉語音產品。被告一北京某智能科技公司采取應用程序接口形式,在未經技術處理的情況下,直接調取并生成文本轉語音產品在其平臺中使用。
原告主張,被告的行為已經嚴重侵犯了原告的聲音權益,被告一北京某智能科技公司、被告三某軟件公司應立即停止侵權、賠禮道歉,五被告應當賠償原告經濟損失、精神損失。五被告均否認侵權,主張人工智能合成后的聲音產品,與自然人聲音在人身權屬性上有所區別,目前的技術都會對人工智能合成聲音進行水印標記,這切斷了人工智能合成聲音與自然人聲音之間的聯系,不會產生對應自然人的人格屬性,不具有對原告人格的可識別性。
(二)裁判情況
北京互聯網法院(2023)京0491民初12142號民事判決書認為:原告聲音權益及于案涉AI聲音,未經許可使用原告聲音構成侵權,賠償損失應當考量被告侵權情節、同類市場產品價值等因素。判決被告一北京某智能科技公司、被告三某軟件公司向原告賠禮道歉,被告二北京某文化傳媒公司、被告三某軟件公司向原告賠償損失共計25萬元。
(三)爭議的問題
本案原告作為配音演員,對其聲音享有權益,被告三某軟件公司作為上游技術開發公司,在僅將原告聲音作為素材的基礎上,對原告聲音進行AI化,生成案涉AI聲音,并將該AI聲音產品提供給下游文化產品服務提供者被告一北京某智能科技公司,進而面向終端用戶提供服務。該案涉及最初的聲音數據采集、數據處理、人工智能合成直至最后到用戶使用,完整顯現了AI生成聲音全鏈條、各環節。本案爭議的主要內容為:一是原告聲音權益是否及于案涉AI聲音,即AI生成聲音能否識別出原告;二是被告對原告聲音的使用是否有合法授權;三是被訴行為是否構成侵權以及如構成侵權,應承擔何種法律責任。
本案系全國首例AI生成聲音侵害人格權案,實踐中,因聲音權益受到侵害引發訴訟的案件相對較少,從前述爭議的內容來看,亟需司法回應的問題集中在以下三方面:
一是聲音權益的內涵是什么。首先,聲音的性質存在爭議,究竟屬于具體人格權、一般人格權益還是法定的人格利益存在不同的觀點。其次,對自然人聲音的保護參照適用肖像權保護的有關規定,“參照適用”語境下,聲音權益的內容又涵蓋哪些方面。最后,聲音侵權類案件,法院應當如何適用法律規定進行裁判。
二是AI生成聲音是否具備可識別性,原告聲音權益是否可以及于AI生成聲音,其可識別性判斷應當考量哪些因素。
三是AI生成聲音侵害聲音權益的侵權行為、損害后果該如何認定,需要考量哪些因素。聲音權益作為一項人格利益,其適用人格權請求權、損害賠償請求權,各侵權主體的責任該如何承擔。圍繞上述三個方面問題,本文將逐一展開詳述。
2
聲音的內涵
聲音權益是法定的人格權益,聲音權益本質屬性是“受尊重權”,維護人之為人的尊嚴,排除他人非法侵害。聲音權益專屬于自然人,不包括法人、非法人組織,該權益無法轉讓、也不得被限制。
此外,關于AI生成聲音的權益歸屬問題,還需回歸到AI生成聲音的可識別性判斷上來。如果文本轉語音軟件生成的AI聲音,是一種全新的、無法識別出其他自然人的聲音,那么就該AI生成聲音自然人無法享有人格權益,但開發者可就該文本轉語音軟件享有著作權等權利;如果僅是將某個自然人的聲音AI化,生成的聲音雖然帶有一定的人工智能語音特征,但仍能識別出自然人身份,那么自然人的聲音權益就可及于該AI生成聲音。聲音權益的客體是聲音利益,是聲音所體現的人格利益。該人格利益,既包括經濟利益又包括精神利益。
3
AI生成聲音的侵權判定
人工智能時代,人的聲音被收集、使用變得更加隱蔽、便捷,基于語音合成技術,通過學習收集到聲音素材進行訓練,可實現對目標聲音特征的模仿,這使得配音變得簡單、成本也更加低廉,在一定程度上促進了短視頻創作。與之相伴的是,語音合成技術的發展也引發人們對聲音權益侵害的擔憂。
(一)AI生成聲音侵權類型
語音合成技術主要指文本轉語音(Text-to-Speech),利用深度學習技術,通過神經網絡直接學習文本到語音的映射關系,無需復雜的特征提取和聲學模型,便可以將文本轉化為語音,生成自然、富有表現力的聲音。AI生成聲音侵權行為可劃分為以下兩種類型:
一是聲音合成。聲音合成是指由聲學模型通過大量的聲音材料訓練轉化來的一段新的語音數據。聲音合成主要依靠深度神經網絡技術,提供高度擬人、流暢自然的合成語音,將文本轉換為有聲讀物。聲音合成的侵權表現形式為未經自然人許可,將自然人聲音作為素材進行訓練。未經許可進行聲音合成,構成對自然人聲音權益的侵害。如前所述,此種方式屬于使用聲音生成新的聲音,自然人的聲音權益是否及于新的聲音,需要從主觀標準、客觀標準、使用方式三個方面綜合判斷。
二是聲音模仿。AI生成聲音語境下的聲音模仿是指通過對自然人聲音數據進行學習,通過文本轉語音技術定制AI聲音。如果利用某個自然人的聲音進行朗讀,需將該自然人的聲音片段進行“投喂訓練”,往往素材越多,聲音的準確度、還原度越高。在“投喂”聲音的過程中還可以進行微調訓練,讓AI自主學習“投喂”的聲音數據的音色、音調等信息,隨著訓練次數的增加,生成的AI聲音就與該自然人的聲音越相似。如前所述,此種使用方式屬于單獨使用聲音,若未經自然人許可將其聲音作為訓練素材,構成未經許可使用,侵害自然人聲音權益。生成的AI聲音是否具備可識別性可從使用方式、主觀標準、客觀標準三個方面綜合判斷。此外,聲音模仿容易引起公眾誤認,以為是自然人原始的聲音,可能還會造成自然人人格尊嚴的貶損。
(二)認定AI生成聲音構成侵權的法律要件
《民法典》第995條規定,“人格權受到侵害的,受害人有權依照本法和其他法律的規定請求行為人承擔民事責任。受害人的停止侵害、排除妨礙、消除危險、消除影響、恢復名譽、賠禮道歉請求權,不適用訴訟時效的規定。”若存在侵害行為或者對人格權有侵害之虞,權利人即可主張相應的請求權,至于行為人是否存在過錯在所不問。該條規定意在充分尊重自然人的人格權益,給予自然人人格更積極充分的保護,從而實現保護人格尊嚴的目的。在AI生成聲音侵害自然人聲音權益案件中,認定構成侵權的要件需要從侵害行為、侵害后果、因果關系等方面綜合考量。
一是侵害行為。AI生成聲音的侵權行為是指未經許可的聲音使用、公開等行為,主要類型包括未經自然人許可且不構成合理使用的聲音合成、聲音模仿,其中通過聲音合成生成新的聲音,就該新的聲音許可他人使用行為能否被權利人控制,需要判斷新的聲音是否具備可識別性。
二是侵害后果。聲音權益屬于法定的人格權益,可適用人格權請求權之規定,行使人格權請求權不以造成權利損害的后果為要件,對于可能發生的妨害或已經存在的妨害,權利人可以通過停止妨害請求權尋求救濟。權利人行使侵權請求權時,需要以存在一定損害作為前提,以補償救濟權利人。
三是因果關系。AI生成聲音的侵害行為、侵害后果之間需具備相應的因果關系,即因侵害行為的存在導致相應侵害后果的發生。只有確定了相應的因果關系,才能要求侵害人承擔相應的責任。
(三)AI生成聲音各侵權主體責任劃分
《民法典》第998條規定,“認定行為人承擔侵害除生命權、身體權和健康權外的人格權的民事責任,應當考慮行為人和受害人職業、影響范圍、過錯程度,以及行為的目的、方式、后果等因素。”關于聲音權益遭受侵害后的歸責原則,參照肖像權,權利人在聲音權益遭到侵害后,其請求損害賠償,應當適用過錯責任原則。
AI生成聲音的各侵權主體涉及上游供應商、中間經銷商、下游購買商,相對應的責任劃分亦有所不同。作為上游供應商,開展原始聲音數據收集與處理,其應當負有較高的審查義務,需確認獲得自然人的授權許可。中間的經銷商與下游的服務提供者,無法對聲音的來源進行審查,如果對其苛以AI聲音產品最初數據來源授權確認,不僅無法保障行業交易的效率,而且其也無法追溯到最初的數據來源。
文章來源:《法律適用》2024年第9期
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.