Az NVIDIA nyílt forráskódú beszédfelismerő modellt tett elérhetővé

Jens-Christoph Brendel – 2025. május 6

Az NVIDIA, amely leginkább a mesterséges intelligencia gyorsításához elengedhetetlen GPU-kat szállító hardvergyártóként ismert, saját mesterséges intelligencia-modelljeihez tartozó szoftvereken is dolgozik. A gyártó most kiadott egy Parakeet-TDT-0.6B-v2 nevű automatikus beszédfelismerő modellt, amely állítólag egy másodperc alatt képes egy órányi hanganyagot átírni.

A modell korábbi verziói 2024 januárjában jelentek meg, de a jelenlegi modell mindössze 6,05 hibaszázalékkal vezeti a Hugging Face Open ASR ranglistát. A Creative Commons CC-BY-4.0 licenc alatt közzétett szoftver ugyanabba a csoportba sorolja, mint az olyan saját fejlesztésű beszédfelismerő rendszereket, mint az OpenAI GPT-4o-transcribe-ja (2,46 hibaszázalék angol nyelv esetén) vagy az ElevenLabs Scribe (3,3 százalék).

Hihetetlenül nagy sebességet mutat, képes egy órányi hanganyagot átírni mindössze egy másodperc alatt. Ezzel a Hugging Face által vezetett benchmark lista élére került.

A május 1-je óta világszerte elérhető modell a beszédfelismerő rendszerek kutatóinak és fejlesztőinek szól. Támogatja az írásjeleket, a nagybetűs írást és a részletes időbélyegeket szó szinten, így teljes átírási csomagot biztosít a beszédfelismerési követelmények széles skálájához. A licenc kereskedelmi alkalmazásokat is lehetővé tesz.

Az NVIDIA nyílt forráskódú beszédfelismerő modellt tett elérhetővé

Vélemény, hozzászólás? Válasz megszakítása

Adminisztráció

Legutóbbi bejegyzések

Legutóbbi hozzászólások

Kategóriák