當地時間 4 月 14 日,在世界海豚日的當天,谷歌聯合美國佐治亞理工學院團隊以及非營利組織“野生海豚項目(WDP,Wild Dolphin Project)”,共同發布一款專為海豚打造的名為 DolphinGemma 的 AI 模型,并將在今年夏天投入試用。
谷歌 CEO 桑德爾·皮查伊(Sundar Pichai)發 X 表示:“該模型能夠學習海豚的聲音模式,預測它們接下來可能發出的聲音。它的體積足夠小(約 4 億個參數),可以直接在用于海洋的 Pixel 9 手機上運行!這朝著實現跨物種交流邁出了非常酷的一步。”
(來源:X)
皮查伊還表示:“我們計劃今年夏天將其作為開放模式與大家分享,以促進科學合作。”
(來源:X)
諾獎得主、Google DeepMind 的聯合創始人兼 CEO 戴米斯·哈薩比斯(Demis Hassabis)也發 X 表示:“不久的將來,我們將能夠與許多高智商的動物物種進行交流——我迫不及待地想更好地理解我的狗在說什么!”
(來源:X)
該模型有著大約 4 億參數,經過訓練之后能夠學習海豚發聲的結構,并能生成類似海豚聲音的聲音序列。目前,DolphinGemma 正在幫助科學家研究海豚的交流機制,并有望弄清它們到底在說什么。
(來源:谷歌)
DolphinGemma 這一 AI 模型由谷歌開發,并采用特定的谷歌音頻技術。其中,SoundStream 分詞器能夠高效地表示海豚的聲音,然后通過適用于復雜序列的模型架構來對這些聲音進行處理。
當把 DolphinGemma 的模型尺寸經過優化,可以直接在“野生海豚項目”組所使用的谷歌 Pixel 手機上運行。
(來源:谷歌)
DolphinGemma 模型基于谷歌 Gemma 模型打造而來,經過對于“野生海豚項目”聲學數據庫的廣泛訓練,DolphinGemma 能夠進行音頻輸入和音頻輸出,從而能夠處理自然海豚聲音的序列,并能識別其模式和結構,進而能夠預測序列中可能出現的后續聲音,這與基于人類語言的大型語言模型去預測句子中的下一個單詞或 token 的原理非常相似。
目前,“野生海豚項目”組已經開始在相關任務中部署 DolphinGemma,有望立即帶來潛在效益。通過識別重復的聲音模式、集群和可靠序列,該模型能夠幫助研究人員揭示海豚在自然交流中隱藏的結構和潛在意義。
具體在使用時,“野生海豚項目”組會先打造一些合成聲音,以此來指代海豚喜歡玩耍的物體,從而與海豚建立起一種共享的詞匯表。除此之外,“野生海豚項目”組還將探索在海洋中進行雙向交互的潛力。
研究地球上最聰明的生物之一
海豚通常被認為是地球上最聰明的生物之一。研究表明,它們能夠互相合作以及互相傳授新技能,甚至能在鏡子中認出自己。海豚因其發達的大腦和復雜的社會結構,被認為是進行認知研究的優秀非人類動物代表。對于海豚認知的探索將有助于進一步提升人類對于地球動物的了解,并能幫助人類界定我們與它們的關系。
既然我們知道海豚有著復雜的交流系統,那么就要設法理解這一系統。除了理解它們所發出的聲音外,還需要考慮許多因素包括它們所處的環境、行為、身體姿勢以及空間聯系和社會聯系。
幾十年來,科學家們一直試圖弄清楚海豚用來交流的復雜哨聲和“喀噠”聲。了解任何物種都需要深入理解其背景,而這正是“野生海豚項目”組所能提供的內容之一。
自 1985 年以來,由丹尼斯·赫爾辛(Denise Herzing)博士創辦的“野生海豚項目”,希望能夠實現實現人與海豚之間的雙向交流。為此,野生海豚項目”組一直在開展、并仍在開展全球持續時間最長的水下海豚研究項目。其間,他們曾針對巴哈馬國巴哈馬群島的一群野生大西洋斑點海豚進行過跨代研究。
(來源:https://ginisnaturenews.com)
這種以非侵入性的“在它們的世界,按它們的方式”的方法,讓該組織得以打造出這樣一種數據集:其包含數十年的水下視頻和水下音頻,這些視頻和音頻與個體海豚的身份、生活史和行為能夠實現細致的配對。
多年來,“野生海豚項目”組重點觀察和分析了海豚的自然交流和社交互動。在水下工作的時候,“野生海豚項目”組的研究人員以水上觀察不到的方式,直接將聲音與特定行為聯系起來。幾十年來,他們一直在將聲音類型與行為背景進行關聯,以下是一些例子:
- 哨聲,僅用于母海豚和小海豚的重聚。
- “尖叫聲”,經常出現在在戰斗之中。
- “嗡嗡”聲,經常出現在求偶期間或追逐鯊魚時。
而“野生海豚項目”組的最終目標是理解這些自然聲音序列的結構和潛在意義,探尋可能表明語言存在的模式和規則。
非營利組織、學界和業界的三方聯動
要想分析海豚的自然交流并非易事,但是“野生海豚項目”組所積累的龐大的標記數據集,為結合其他前沿技術提供了獨特機會。
此前,“野生海豚項目”組與佐治亞理工學院團隊合作開發了鯨類聽力增強遙測(CHAT,Cetacean Hearing Augmentation Telemetry)系統。
CHAT 是一款“水下計算機”,配有一個視頻相機和三個水聽器,通過其所記錄的數據可以評估聲音在水中的方向性。其設計目的并非為了直接破譯海豚復雜的自然語言,而是為了建立一種更簡單的、更共通的詞匯表。
CHAT 能夠生成新穎的合成哨聲,這種聲音與天然海豚聲音完全不同。研究中,合作團隊將合成聲音和海豚喜歡的馬尾藻、海草或圍巾等特定物體聯系起來。
(來源:見水印)
通過演示這一系統,“野生海豚項目”組希望這些天生好奇的海豚能夠學會模仿哨聲進而索要玩具。
CHAT 系統所具備的以下功能,使其能夠實現人類和海豚的互動:
- 在海洋的嘈雜聲中,CHAT 能夠準確地聽出模仿的聲音。
- CHAT 能夠實時識別出海豚模仿的是哪種哨聲。
- CHAT 通過能在水下工作的骨傳導耳機告知研究人員,海豚“請求”的是哪個物品。
- 通過提供正確的物品,CHAT 能使研究人員快速做出反應,從而加強這種聯系。
當然,僅有數據集和 CHAT 這樣的“水下計算機”還不足以完成研究海豚的目標。這時,谷歌的 Pixel 系列手機派上了用場,該手機能夠實時處理海豚聲音的高保真分析。
(來源:谷歌)
使用 Pixel 智能手機可大幅減少對定制硬件的需求,在提高系統可維護性的同時還能降低功耗,并能縮減設備成本和尺寸,這對于公海實地研究來說都是至關重要的優勢。
預計于 2025 年夏季推出的 Pixel 9,將會集成揚聲器功能和麥克風功能。升級至 Pixel 9 之后,將使 CHAT 能夠同時運行深度學習模型和模板匹配算法。
同時,DolphinGemma 的預測能力可以幫助 CHAT 在海豚發聲序列的早期,就能預測和識別潛在的模仿行為,從而提高研究人員對海豚的反應速度,進而使互動更加流暢。
圖 | 最新 CHAT 系統硬件中的 Pixel 9(來源:谷歌)
雖然 DolphinGemma 是基于大西洋斑點海豚的聲音進行訓練的,但谷歌預計它對于研究其他鯨目動物比如寬吻海豚或飛旋海豚同樣具有潛在效用。
對于不同物種的叫聲,可能需要針對模型進行微調,而 DolphinGemma 模型具備一定的開放性,非常有助于實現這種調整。
(來源:見水印)
與 Gemma 模型一樣,DolphinGemma 也是一個開源模型。谷歌將于今年夏天發布該模型,供世界各地的研究人員使用。通過提供 DolphinGemma 等工具,谷歌希望為全球研究人員提供挖掘聲學數據集的工具,共同加深對于這些智能海洋哺乳動物的理解。
總的來說,這項工作通過建立一種相互理解的交流系統,希望能夠超越非人類動物與人類之間的人為界限。這種探索跨物種交流的方法,不僅拓展了 AI 的邊界,也拓展了人類與海洋世界的潛在聯系。
參考資料:
https://www.wilddolphinproject.org/
https://techcrunch.com/2025/04/14/googles-newest-ai-model-is-designed-to-help-study-dolphin-speech/
https://finance.yahoo.com/news/googles-newest-ai-model-designed-162655313.html?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAJ9xdeI7jFMvFjT2Zn4KTeF639y5cW-0BvFq53WCfNp6Trhi4v5Jjx_IyuDpJ3T_A8jYfMuv6gKx8s79S5pkPJ-IcrUL7olJA4gqlNZe28jgcF3pWx5jR9ho_fv6kS3GxBU9jJMzJmw5gwqBEjiUUjo-sR15GLJMvDXHmZZlZpCu
https://www.wilddolphinproject.org/about-us/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.