谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

Connor Binance 2025-05-05 23 0

當(dāng)?shù)貢r間 4 月 14 日，在世界海豚日的當(dāng)天，谷歌聯(lián)合美國佐治亞理工學(xué)院團(tuán)隊(duì)以及非營利組織“野生海豚項(xiàng)目（WDP，Wild Dolphin Project）”，共同發(fā)布一款專為海豚打造的名為 DolphinGemma 的 AI 模型，并將在今年夏天投入試用。

谷歌 CEO 桑德爾·皮查伊（Sundar Pichai）發(fā) X 表示：“該模型能夠?qū)W習(xí)海豚的聲音模式，預(yù)測它們接下來可能發(fā)出的聲音。它的體積足夠?。s 4 億個參數(shù)），可以直接在用于海洋的 Pixel 9 手機(jī)上運(yùn)行！這朝著實(shí)現(xiàn)跨物種交流邁出了非?？岬囊徊??！?/p>

圖 | 谷歌 CEO 桑德爾·皮查伊（Sundar Pichai）在 X 發(fā)文（來源：X）

皮查伊還表示：“我們計劃今年夏天將其作為開放模式與大家分享，以促進(jìn)科學(xué)合作?！?/p>

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

圖 | 谷歌 CEO 桑德爾·皮查伊（Sundar Pichai）在 X 發(fā)文（來源：X）

諾獎得主、Google DeepMind 的聯(lián)合創(chuàng)始人兼 CEO 戴米斯·哈薩比斯（Demis Hassabis）也發(fā) X 表示：“不久的將來，我們將能夠與許多高智商的動物物種進(jìn)行交流——我迫不及待地想更好地理解我的狗在說什么！”

展開全文

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

圖 | 戴米斯·哈薩比斯（Demis Hassabis）發(fā) X 表示慶祝（來源：X）

該模型有著大約 4 億參數(shù)，經(jīng)過訓(xùn)練之后能夠?qū)W習(xí)海豚發(fā)聲的結(jié)構(gòu)，并能生成類似海豚聲音的聲音序列。目前，DolphinGemma 正在幫助科學(xué)家研究海豚的交流機(jī)制，并有望弄清它們到底在說什么。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

（來源：谷歌）

DolphinGemma 這一 AI 模型由谷歌開發(fā)，并采用特定的谷歌音頻技術(shù)。其中，SoundStream 分詞器能夠高效地表示海豚的聲音，然后通過適用于復(fù)雜序列的模型架構(gòu)來對這些聲音進(jìn)行處理。

當(dāng)把 DolphinGemma 的模型尺寸經(jīng)過優(yōu)化，可以直接在“野生海豚項(xiàng)目”組所使用的谷歌 Pixel 手機(jī)上運(yùn)行。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

圖 | 左：DolphinGemma 早期測試期間生成的哨聲（左）和突發(fā)脈沖（右）（來源：谷歌）

DolphinGemma 模型基于谷歌 Gemma 模型打造而來，經(jīng)過對于“野生海豚項(xiàng)目”聲學(xué)數(shù)據(jù)庫的廣泛訓(xùn)練，DolphinGemma 能夠進(jìn)行音頻輸入和音頻輸出，從而能夠處理自然海豚聲音的序列，并能識別其模式和結(jié)構(gòu)，進(jìn)而能夠預(yù)測序列中可能出現(xiàn)的后續(xù)聲音，這與基于人類語言的大型語言模型去預(yù)測句子中的下一個單詞或 token 的原理非常相似。

目前，“野生海豚項(xiàng)目”組已經(jīng)開始在相關(guān)任務(wù)中部署 DolphinGemma，有望立即帶來潛在效益。通過識別重復(fù)的聲音模式、集群和可靠序列，該模型能夠幫助研究人員揭示海豚在自然交流中隱藏的結(jié)構(gòu)和潛在意義。

具體在使用時，“野生海豚項(xiàng)目”組會先打造一些合成聲音，以此來指代海豚喜歡玩耍的物體，從而與海豚建立起一種共享的詞匯表。除此之外，“野生海豚項(xiàng)目”組還將探索在海洋中進(jìn)行雙向交互的潛力。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

研究地球上最聰明的生物之一

海豚通常被認(rèn)為是地球上最聰明的生物之一。研究表明，它們能夠互相合作以及互相傳授新技能，甚至能在鏡子中認(rèn)出自己。海豚因其發(fā)達(dá)的大腦和復(fù)雜的社會結(jié)構(gòu)，被認(rèn)為是進(jìn)行認(rèn)知研究的優(yōu)秀非人類動物代表。對于海豚認(rèn)知的探索將有助于進(jìn)一步提升人類對于地球動物的了解，并能幫助人類界定我們與它們的關(guān)系。

既然我們知道海豚有著復(fù)雜的交流系統(tǒng)，那么就要設(shè)法理解這一系統(tǒng)。除了理解它們所發(fā)出的聲音外，還需要考慮許多因素包括它們所處的環(huán)境、行為、身體姿勢以及空間聯(lián)系和社會聯(lián)系。

幾十年來，科學(xué)家們一直試圖弄清楚海豚用來交流的復(fù)雜哨聲和“喀噠”聲。了解任何物種都需要深入理解其背景，而這正是“野生海豚項(xiàng)目”組所能提供的內(nèi)容之一。

自 1985 年以來，由丹尼斯·赫爾辛（Denise Herzing）博士創(chuàng)辦的“野生海豚項(xiàng)目”，希望能夠?qū)崿F(xiàn)實(shí)現(xiàn)人與海豚之間的雙向交流。為此，野生海豚項(xiàng)目”組一直在開展、并仍在開展全球持續(xù)時間最長的水下海豚研究項(xiàng)目。其間，他們曾針對巴哈馬國巴哈馬群島的一群野生大西洋斑點(diǎn)海豚進(jìn)行過跨代研究。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

（來源：）

這種以非侵入性的“在它們的世界，按它們的方式”的方法，讓該組織得以打造出這樣一種數(shù)據(jù)集：其包含數(shù)十年的水下視頻和水下音頻，這些視頻和音頻與個體海豚的身份、生活史和行為能夠?qū)崿F(xiàn)細(xì)致的配對。

多年來，“野生海豚項(xiàng)目”組重點(diǎn)觀察和分析了海豚的自然交流和社交互動。在水下工作的時候，“野生海豚項(xiàng)目”組的研究人員以水上觀察不到的方式，直接將聲音與特定行為聯(lián)系起來。幾十年來，他們一直在將聲音類型與行為背景進(jìn)行關(guān)聯(lián)，以下是一些例子：

哨聲，僅用于母海豚和小海豚的重聚。

“尖叫聲”，經(jīng)常出現(xiàn)在在戰(zhàn)斗之中。

“嗡嗡”聲，經(jīng)常出現(xiàn)在求偶期間或追逐鯊魚時。

而“野生海豚項(xiàng)目”組的最終目標(biāo)是理解這些自然聲音序列的結(jié)構(gòu)和潛在意義，探尋可能表明語言存在的模式和規(guī)則。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

非營利組織、學(xué)界和業(yè)界的三方聯(lián)動

要想分析海豚的自然交流并非易事，但是“野生海豚項(xiàng)目”組所積累的龐大的標(biāo)記數(shù)據(jù)集，為結(jié)合其他前沿技術(shù)提供了獨(dú)特機(jī)會。

此前，“野生海豚項(xiàng)目”組與佐治亞理工學(xué)院團(tuán)隊(duì)合作開發(fā)了鯨類聽力增強(qiáng)遙測（CHAT，Cetacean Hearing Augmentation Telemetry）系統(tǒng)。

CHAT 是一款“水下計算機(jī)”，配有一個視頻相機(jī)和三個水聽器，通過其所記錄的數(shù)據(jù)可以評估聲音在水中的方向性。其設(shè)計目的并非為了直接破譯海豚復(fù)雜的自然語言，而是為了建立一種更簡單的、更共通的詞匯表。

CHAT 能夠生成新穎的合成哨聲，這種聲音與天然海豚聲音完全不同。研究中，合作團(tuán)隊(duì)將合成聲音和海豚喜歡的馬尾藻、海草或圍巾等特定物體聯(lián)系起來。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

圖 | 一只幼海豚正在玩馬尾藻，這是大西洋斑點(diǎn)海豚的天然玩具（來源：見水?。?/p>

通過演示這一系統(tǒng)，“野生海豚項(xiàng)目”組希望這些天生好奇的海豚能夠?qū)W會模仿哨聲進(jìn)而索要玩具。

CHAT 系統(tǒng)所具備的以下功能，使其能夠?qū)崿F(xiàn)人類和海豚的互動：

在海洋的嘈雜聲中，CHAT 能夠準(zhǔn)確地聽出模仿的聲音。

CHAT 能夠?qū)崟r識別出海豚模仿的是哪種哨聲。

CHAT 通過能在水下工作的骨傳導(dǎo)耳機(jī)告知研究人員，海豚“請求”的是哪個物品。

通過提供正確的物品，CHAT 能使研究人員快速做出反應(yīng)，從而加強(qiáng)這種聯(lián)系。

當(dāng)然，僅有數(shù)據(jù)集和 CHAT 這樣的“水下計算機(jī)”還不足以完成研究海豚的目標(biāo)。這時，谷歌的 Pixel 系列手機(jī)派上了用場，該手機(jī)能夠?qū)崟r處理海豚聲音的高保真分析。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

（來源：谷歌）

使用 Pixel 智能手機(jī)可大幅減少對定制硬件的需求，在提高系統(tǒng)可維護(hù)性的同時還能降低功耗，并能縮減設(shè)備成本和尺寸，這對于公海實(shí)地研究來說都是至關(guān)重要的優(yōu)勢。

預(yù)計于 2025 年夏季推出的 Pixel 9，將會集成揚(yáng)聲器功能和麥克風(fēng)功能。升級至 Pixel 9 之后，將使 CHAT 能夠同時運(yùn)行深度學(xué)習(xí)模型和模板匹配算法。

同時，DolphinGemma 的預(yù)測能力可以幫助 CHAT 在海豚發(fā)聲序列的早期，就能預(yù)測和識別潛在的模仿行為，從而提高研究人員對海豚的反應(yīng)速度，進(jìn)而使互動更加流暢。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

圖 | 最新 CHAT 系統(tǒng)硬件中的 Pixel 9（來源：谷歌）

雖然 DolphinGemma 是基于大西洋斑點(diǎn)海豚的聲音進(jìn)行訓(xùn)練的，但谷歌預(yù)計它對于研究其他鯨目動物比如寬吻海豚或飛旋海豚同樣具有潛在效用。

對于不同物種的叫聲，可能需要針對模型進(jìn)行微調(diào)，而 DolphinGemma 模型具備一定的開放性，非常有助于實(shí)現(xiàn)這種調(diào)整。

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

（來源：見水?。?/p>

與 Gemma 模型一樣，DolphinGemma 也是一個開源模型。谷歌將于今年夏天發(fā)布該模型，供世界各地的研究人員使用。通過提供 DolphinGemma 等工具，谷歌希望為全球研究人員提供挖掘聲學(xué)數(shù)據(jù)集的工具，共同加深對于這些智能海洋哺乳動物的理解。

總的來說，這項(xiàng)工作通過建立一種相互理解的交流系統(tǒng)，希望能夠超越非人類動物與人類之間的人為界限。這種探索跨物種交流的方法，不僅拓展了 AI 的邊界，也拓展了人類與海洋世界的潛在聯(lián)系。

參考資料：

運(yùn)營/排版：何晨龍

#海豚 #專屬 #模型 #基于 #聲音

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

評論

熱門文章

最近發(fā)表

標(biāo)簽列表

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密

相關(guān)文章

評論

熱門文章

最近發(fā)表

標(biāo)簽列表

谷歌基于Gemma打造海豚專屬模型，用4億參數(shù)“解鎖”海豚聲音秘密