国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

博客專欄

EEPW首頁(yè) > 博客 > 谷歌Recorder實(shí)現(xiàn)說(shuō)話人自動(dòng)標(biāo)注,功能性與iOS語(yǔ)音備忘錄再度拉大

谷歌Recorder實(shí)現(xiàn)說(shuō)話人自動(dòng)標(biāo)注,功能性與iOS語(yǔ)音備忘錄再度拉大

發(fā)布人:機(jī)器之心 時(shí)間:2022-12-21 來(lái)源:工程師 發(fā)布文章
在今年的 Made By Google 大會(huì)上,谷歌公布了 Recorder 應(yīng)用的自動(dòng)說(shuō)話人標(biāo)注功能。該功能將實(shí)時(shí)地為語(yǔ)音識(shí)別的文本加上匿名的說(shuō)話人標(biāo)簽(例如 “說(shuō)話人 1” 或“說(shuō)話人 2”)。這項(xiàng)功能將極大地提升錄音文本的可讀性與實(shí)用性。


谷歌于 2019 年為其 Pixel 手機(jī)推出了安卓系統(tǒng)下的錄音軟件 Recorder,對(duì)標(biāo) iOS 下的語(yǔ)音備忘錄,并支持音頻文件的錄制、管理和編輯等。在此之后,谷歌陸續(xù)為 Recorder 加入了大量基于機(jī)器學(xué)習(xí)的功能,包括語(yǔ)音識(shí)別,音頻事件檢測(cè),自動(dòng)標(biāo)題生成,以及智能瀏覽等。


不過(guò)當(dāng)錄音文件較長(zhǎng)并包含多個(gè)說(shuō)話人的時(shí)候,一部分 Recorder 的用戶在使用過(guò)程中會(huì)感到不便。因?yàn)閮H憑語(yǔ)音識(shí)別得到的文本,并不能判斷每句話分別是誰(shuí)說(shuō)的。在今年的 Made By Google 大會(huì)上,谷歌公布了 Recorder 應(yīng)用的自動(dòng)說(shuō)話人標(biāo)注功能。該功能將實(shí)時(shí)地為語(yǔ)音識(shí)別的文本加上匿名的說(shuō)話人標(biāo)簽(例如 “說(shuō)話人 1” 或“說(shuō)話人 2”)。這項(xiàng)功能將極大地提升錄音文本的可讀性與實(shí)用性。而這項(xiàng)功能背后的技術(shù),被稱為聲紋分割聚類(speaker diarization)。谷歌在 2022 年的 ICASSP 會(huì)議上,首次介紹了其名為 Turn-to-Diarize 的聲紋分割聚類系統(tǒng)。


圖片

左圖:關(guān)閉了說(shuō)話人標(biāo)注的錄音文本。右圖:開啟了說(shuō)話人標(biāo)注的錄音文本。


系統(tǒng)架構(gòu)


谷歌的 Turn-to-Diarize 系統(tǒng)包含了多個(gè)高度優(yōu)化的模型和算法,實(shí)現(xiàn)了在移動(dòng)設(shè)備上,以極少的計(jì)算資源完成對(duì)長(zhǎng)達(dá)數(shù)小時(shí)的音頻進(jìn)行實(shí)時(shí)聲紋分割聚類處理。該系統(tǒng)主要包含三個(gè)組成部分:用以檢測(cè)說(shuō)話人身份轉(zhuǎn)換的說(shuō)話人轉(zhuǎn)換檢測(cè)模型,用以提取每個(gè)說(shuō)話人聲音特征的聲紋編碼器模型,以及一個(gè)能夠高效完成說(shuō)話人標(biāo)注的多階段聚類算法。所有組成部分都完全運(yùn)行在用戶的設(shè)備上,不依賴于任何服務(wù)器連接。


圖片

Turn-to-Diarize 系統(tǒng)的架構(gòu)圖。


說(shuō)話人轉(zhuǎn)換檢測(cè)


該系統(tǒng)的第一個(gè)組成部分是一個(gè)基于 Transformer Transducer(T-T)的說(shuō)話人轉(zhuǎn)換檢測(cè)模型。該模型能夠?qū)⒙晫W(xué)特征序列轉(zhuǎn)換為包含了特殊字符 < st > 的文本序列。特殊字符 < st > 表示一個(gè)說(shuō)話人轉(zhuǎn)換的事件。谷歌之前發(fā)表的論文曾經(jīng)用諸如 < doctor > 或 < patient > 的特殊字符來(lái)表示具體說(shuō)話人的身份。而在最新的系統(tǒng)中,由于 < st > 字符不局限于特定的身份,因此其應(yīng)用也更加廣泛。


對(duì)于大多數(shù)的應(yīng)用,聲紋分割聚類系統(tǒng)的輸出一般不會(huì)直接呈現(xiàn)給用戶,而是與語(yǔ)音識(shí)別模型的輸出進(jìn)行結(jié)合。由于語(yǔ)音識(shí)別模型在訓(xùn)練過(guò)程中已經(jīng)針對(duì)詞錯(cuò)率進(jìn)行了優(yōu)化,因此說(shuō)話人轉(zhuǎn)換檢測(cè)模型對(duì)于詞錯(cuò)率較為寬容,但更加注重特殊字符 < st > 的準(zhǔn)確率。在此基礎(chǔ)上,谷歌提出了一種新的基于字符的損失函數(shù),實(shí)現(xiàn)了只需較小的模型,就能準(zhǔn)確地檢測(cè)出說(shuō)話人轉(zhuǎn)換事件 < st>。


提取聲紋特征


當(dāng)音頻信號(hào)被按照說(shuō)話人轉(zhuǎn)換事件進(jìn)行分割之后,系統(tǒng)通過(guò)聲紋編碼器模型對(duì)每一個(gè)說(shuō)話人片段提取包含聲紋信息的嵌入碼,即 d-vector。谷歌在之前發(fā)表的論文中,一般都是從固定長(zhǎng)度的音頻中提取聲紋嵌入碼。與之相比,這次的新系統(tǒng)有多項(xiàng)改進(jìn)。首先,新系統(tǒng)避免了從包含多個(gè)說(shuō)話人信息的片段中提取聲紋嵌入碼,從而提升了嵌入碼的整體質(zhì)量。其次,每一個(gè)聲紋嵌入碼對(duì)應(yīng)的語(yǔ)音片段,其時(shí)長(zhǎng)都比較長(zhǎng),因此包含了對(duì)應(yīng)說(shuō)話人較多的聲紋信息。最后,該方法得到的最終聲紋嵌入碼序列,其長(zhǎng)度較短,使得后續(xù)的聚類算法計(jì)算代價(jià)較低。


多階段聚類


聲紋分割聚類的最后一步,便是對(duì)前面幾步得到的聲紋嵌入碼序列進(jìn)行聚類。由于用戶使用 Recorder 應(yīng)用生成的錄音可能只有幾秒鐘,也可能長(zhǎng)達(dá) 18 小時(shí),所以聚類算法面臨的關(guān)鍵挑戰(zhàn)便是能夠處理各種長(zhǎng)度的聲紋嵌入碼序列。


為此,谷歌的多階段聚類策略巧妙地結(jié)合了幾種不同的聚類算法各自的優(yōu)勢(shì)。對(duì)于較短的序列,該策略采用聚合式分層聚類(AHC)。對(duì)于中等長(zhǎng)度的序列,該方法采用譜聚類,并利用特征值的最大間隔法,來(lái)準(zhǔn)確地估算說(shuō)話人的數(shù)量。對(duì)于較長(zhǎng)的序列,該方法先用聚合式分層聚類來(lái)對(duì)序列進(jìn)行預(yù)處理,然后再調(diào)用譜聚類,從而降低了聚類這一步驟的計(jì)算代價(jià)。而在整個(gè)流式處理的過(guò)程當(dāng)中,通過(guò)對(duì)之前的聚類結(jié)果進(jìn)行動(dòng)態(tài)緩存并重復(fù)利用,每一次聚類算法的調(diào)用,其時(shí)間復(fù)雜度以及空間復(fù)雜度,上限都可以被設(shè)置為一個(gè)常數(shù)。


多階段聚類策略是針對(duì)設(shè)備端應(yīng)用的一項(xiàng)關(guān)鍵優(yōu)化。因?yàn)樵谠O(shè)備端,CPU、內(nèi)存、電池等資源通常都較為稀缺。該策略即使在處理過(guò)長(zhǎng)達(dá)數(shù)小時(shí)的音頻之后,依然能夠維持在一個(gè)低能耗的狀態(tài)下運(yùn)行。而該策略的常數(shù)復(fù)雜度上限,通常可以根據(jù)具體的設(shè)備型號(hào)進(jìn)行調(diào)整,實(shí)現(xiàn)準(zhǔn)確率和性能之間的平衡。


圖片

多階段聚類策略的示意圖。


實(shí)時(shí)校正以及用戶標(biāo)注


因?yàn)?Turn-to-Diarize 是一個(gè)實(shí)時(shí)的流式處理系統(tǒng),所以當(dāng)模型處理完更多的音頻之后,其預(yù)測(cè)得到的說(shuō)話人標(biāo)簽也會(huì)變得更加準(zhǔn)確。為此,Recorder 應(yīng)用會(huì)在用戶錄音的過(guò)程當(dāng)中,持續(xù)地對(duì)之前預(yù)測(cè)的說(shuō)話人標(biāo)簽進(jìn)行校正,保證用戶在當(dāng)前屏幕上看到的說(shuō)話人標(biāo)簽始終是更為準(zhǔn)確的標(biāo)簽。


與此同時(shí),Recorder 應(yīng)用的用戶界面還允許用戶對(duì)每一段錄音中的說(shuō)話人標(biāo)簽進(jìn)行重命名,例如將 “說(shuō)話人 2” 重命名為“汽車經(jīng)銷商”,從而方便用戶閱讀和記憶。

圖片

Recorder 允許用戶對(duì)說(shuō)話人標(biāo)簽進(jìn)行重命名,從而提升可讀性。


未來(lái)工作


谷歌在最新的數(shù)款 Pixel 手機(jī)上推出了自研芯片 Google Tensor。而當(dāng)前的聲紋分割聚類系統(tǒng)主要便運(yùn)行在 Google Tensor 的 CPU 模塊上。未來(lái)谷歌計(jì)劃將聲紋分割聚類系統(tǒng)運(yùn)行到 Google Tensor 的 TPU 模塊上,從而進(jìn)一步降低能耗。此外,谷歌還希望借助多語(yǔ)言的聲紋編碼器以及語(yǔ)音識(shí)別模型,將這一功能擴(kuò)展到除英語(yǔ)之外的其他語(yǔ)言上。


原文鏈接:

https://ai.googleblog.com/2022/12/who-said-what-recorders-on-device.html



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉