英偉達(dá) Parakeet TDT 0.6B 成開(kāi)源 ASR 新王：1秒轉(zhuǎn)錄60分鐘音頻

作者：時(shí)間：2025-05-08 來(lái)源：IT之家

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

5 月 7 日消息，科技媒體 marktechpost 昨日（5 月 6 日）發(fā)布博文，報(bào)道稱(chēng)英偉達(dá)最新推出 Parakeet TDT 0.6B，是一款先進(jìn)的自動(dòng)語(yǔ)音識(shí)別（ASR）模型，已在 Hugging Face 平臺(tái)上完全開(kāi)源。

本文引用地址：http://www.ljygm.com/article/202505/470178.htm

Parakeet TDT 0.6B 的核心優(yōu)勢(shì)在于其無(wú)與倫比的速度和轉(zhuǎn)錄質(zhì)量。該模型僅需 1 秒即可處理 60 分鐘音頻，是現(xiàn)有主流開(kāi)源 ASR 典型模型速度的 50 倍。

在 Hugging Face 的 Open ASR Leaderboard 上，其字錯(cuò)率（WER）低至 6.05%，成為開(kāi)源模型中的佼佼者。這一性能為實(shí)時(shí)轉(zhuǎn)錄、語(yǔ)音分析、呼叫中心智能和音頻內(nèi)容索引等企業(yè)級(jí)應(yīng)用提供了強(qiáng)大支持。

無(wú)標(biāo)題.jpg

該模型基于 Transformer 架構(gòu)，結(jié)合高質(zhì)量轉(zhuǎn)錄數(shù)據(jù)進(jìn)行微調(diào)，并針對(duì)英偉達(dá)硬件優(yōu)化推理。

援引博文介紹，該模型關(guān)鍵特性包括：6 億參數(shù)的編碼-解碼結(jié)構(gòu)、量化和融合內(nèi)核以提升推理效率、支持 TDT（Transducer Decoder Transformer）架構(gòu)，以及精確的時(shí)間戳、數(shù)字格式化和標(biāo)點(diǎn)恢復(fù)功能。

此外，該模型還開(kāi)創(chuàng)性地支持歌曲轉(zhuǎn)歌詞轉(zhuǎn)錄，這一罕見(jiàn)功能拓展了音樂(lè)索引和媒體平臺(tái)的用例，依托英偉達(dá)的 TensorRT 和 FP8 量化技術(shù)，其實(shí)時(shí)率（Real Time Factor，RTF，模型處理時(shí)間和音頻長(zhǎng)度的比值）達(dá)到 3386。

Parakeet TDT 0.6B 不僅關(guān)注速度和精度，還內(nèi)置了多項(xiàng)獨(dú)特功能。該模型能將歌曲內(nèi)容轉(zhuǎn)為歌詞，適用于音樂(lè)和媒體領(lǐng)域；支持?jǐn)?shù)字和時(shí)間戳格式化，提升會(huì)議記錄、法律轉(zhuǎn)錄和醫(yī)療記錄的可讀性；標(biāo)點(diǎn)恢復(fù)功能則增強(qiáng)了下游自然語(yǔ)言處理（NLP）應(yīng)用的表現(xiàn)。這些特性大幅提升轉(zhuǎn)錄質(zhì)量，減輕后期處理或人工編輯的負(fù)擔(dān)，尤其適合企業(yè)級(jí)部署。

国产亚洲精品AA片在线观看,丰满熟妇HD,亚洲成色www成人网站妖精,丁香五月天婷婷五月天男人天堂

新聞中心

英偉達(dá) Parakeet TDT 0.6B 成開(kāi)源 ASR 新王：1秒轉(zhuǎn)錄60分鐘音頻

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)