Speechmatics Uporablja AI za transkripcijo jezikov, in It's Beating Google

$config[ads_kvadrat] not found

The Best free Transcription App with Built in AI

The Best free Transcription App with Built in AI
Anonim

Speechmatics poteka po Googlu. Britanski startup je prejšnji mesec prevzel obloge iz Automatic Linguista, močno umetno inteligenco, ki se lahko v nekaj dneh nauči jezika za prepis govora v besedilo. Ekipa želi omogočiti tehnologijo za vsakega od približno 7000 jezikov na svetu s potencialom za preoblikovanje življenja.

Od zagona lingvističnega orodja je Speechmatics delal na Omniglotu, kar je izziv za oblikovanje jezika na dan. Prejšnji teden je podjetje doseglo velik mejnik: uradno je premagal Google s skupaj 72 edinstvenimi jeziki.

Sistem uporablja strojno učenje za usklajevanje zvočnih podatkov s kopijo transkriptov. Nato uporablja jezikovne vzorce iz drugih jezikov, da bi postopek naredil kar se da preprosto, opredelil podobnosti med zvoki in slovničnimi strukturami ter jih uporabil za nove jezike. Postopek je zelo učinkovit: na primer, delo Spektmatike na Hindi je trajalo le dva tedna, da bi dosegli 80-odstotno natančnost. Ko je bil končni izdelek testiran proti Googlovim prizadevanjem, je naredil 23 odstotkov manj napak.

Inverse se je pogovarjal s Benediktom von Thüngenom, generalnim direktorjem Speechmatics, da bi izvedel več.

Kako ste začeli sodelovati pri projektu?

Projekt Omniglot smo začeli kot izziv za sebe - da bi videli, koliko jezikov bomo lahko zgradili v šestih tednih. Nekaj ​​časa smo spoznali, da tradicionalni pristop oblikovanja posameznega jezika ni več izvedljiv, ko se poskušamo hitro približati. Ob upoštevanju tega smo morali ponovno razmisliti, kaj je jezik, kako je strukturiran in kakšne so podobnosti med različnimi jeziki. Našli smo način, da uporabimo te skupne značilnosti za prepoznavanje vzorcev in pomagamo našim okvirom AI, Automatic Linguist (AL), da gradijo jezike hitreje kot kdajkoli prej - 46 v šestih tednih, če smo natančni, ali približno en jezik na dan šest tednov !

Kako se to razlikuje od prizadevanj Googla?

Naš pristop k oblikovanju jezikov je eden od glavnih vidikov, ki nas razlikuje od Googla. Medtem ko predvidevamo, da svoje jezike gradijo posamično (ali s tem, kar imenujemo "sila"), uporabljamo moč A.I. racionalizirati in pospešiti proces gradnje jezikov. Poleg tega, medtem ko se druge storitve, kot je Google, osredotočajo na izgradnjo narečij in ne na edinstvene jezike, smo lahko ponosni, da so naša prizadevanja osredotočena na edinstvene jezike z vsega sveta, vključno s področji, ki so jih doslej še vedno premalo uporabljala velika tehnološka podjetja.

Kakšne so nekatere aplikacije v tem svetu?

Zdaj imamo tehnologijo in znanje, da bi naše storitve postale daljnosežnejše kot kdajkoli prej in vsem omogočile samodejno prepoznavanje govora (ASR). To je še posebej pomembno v državah z nizko stopnjo pismenosti, kjer je zmožnost uporabe predhodno nerazpoložljivih tehnologij govora v besedilo za komuniciranje lahko zelo pomembna za ljudi. Drugi primeri, v katerih lahko ASR tehnologija pomaga pri reševanju vprašanj dostopnosti - osebe z okvarami sluha in / ali vida z vsega sveta, lahko zdaj uporabljajo napravo tako preprosto, kot telefon za interakcijo s tistimi okoli njih.

Ali to izboljšuje natančnost dobro zajetih jezikov, kot je angleščina?

Ker še naprej razvijamo več jezikov, je naša A.I. okvir bo vse bolj spreten pri prepoznavanju jezikovnih značilnosti in vzorcev. To znanje bomo uporabili za nadaljevanje izpopolnjevanja naše sedanje jezikovne baze, vključno z angleščino.

Ali bi to lahko izboljšalo orodja za prevajanje v realnem času storitve Google Pixel Buds?

Vsekakor vidimo projekte, kot je Omniglot, ki pomagajo izboljšati orodja za prevajanje v realnem času. Ker se v razširjanje dosega in natančnosti jezikov vlaga več sredstev, bomo v sektorju prevajalskih storitev nenehno izboljševali.

Ali to deluje s katerim koli jezikom, celo s sestavljenimi jeziki, kot je Klingon?

Še vedno moramo poskusiti zgraditi kakršne koli razprave, vendar ne vidimo nobenih razlogov, zakaj ne bi delovali. Ker ljudje še vedno govorijo te jezike, sledijo tudi podobnim strukturnim pravilom in omejitvam kot vsakodnevni jeziki (kot je število fonemov), ki bi dali AL dovolj podatkov za gradnjo.

Ste odprti pri projektu?

Ne, za to nimamo načrtov.

Kako bo licenciranje delovalo?

Jeziki, ki so na voljo v projektu Omniglot, so brezplačni in jih ni mogoče uporabljati v komercialne namene. Kot tako, v bližnji prihodnosti jim ne bo dodeljenih licenc.

Kaj so naslednji koraki od tu?

Projekt Omniglot je samo začetek za nas. Sčasoma hočemo zgraditi vsak jezik na svetu, zato bomo trdo delali za ta cilj!

$config[ads_kvadrat] not found