collaboration
9.8K views | +0 today
Follow
Your new post is loading...
Your new post is loading...
Scooped by Pál Kerékfy
Scoop.it!

Most már YouTube-videókban is egész jól olvas szájról a mesterséges intelligencia

Most már YouTube-videókban is egész jól olvas szájról a mesterséges intelligencia | collaboration | Scoop.it

The researchers started with 140,000 hours of YouTube videos of people talking in diverse situations. Then, they designed a program that created clips a few seconds long with the mouth movement for each phoneme, or word sound, annotated. The program filtered out non-English speech, nonspeaking faces, low-quality video, and video that wasn’t shot straight ahead. Then, they cropped the videos around the mouth. That yielded nearly 4000 hours of footage, including more than 127,000 English words.

Pál Kerékfy's insight:

Az elmúlt napokban kétéves kutatásokról írtam. Ez sokkal frissebb, tavaly nyáron publikálták a Cornell University kutatói. Az ő szoftverük már nem csak BBC-műsorokon, hanem YouTube-videókon nevelkedett, és minden eddiginél jobb eredményt ért el. A vizsgálatban részt vevő profi szájról olvasók 93%-ot tévedtek, a korábbi szoftver 77%-ot, ez pedig csak 41%-ot. Ez még mindig sok, de a helyesen felismert szavak aránya több mint nyolcszorosa, mint az emberek esetében.

Ez a program már arra is figyel, hogy egy hangot másképp formázunk az ajkainkkal különböző hangok előtt és után. Természetesen, továbbra is szükséges, hogy szemből és jól lássa a beszélőt.

Lassan elérjük a használhatóság szintjét!

#CornellUniversity #YouTube #lipreading #AI #artificialintelligence #mestersegesintelligencia

No comment yet.
Scooped by Pál Kerékfy
Scoop.it!

Szájról olvasás - “okos” géppel

Szájról olvasás - “okos” géppel | collaboration | Scoop.it

A new paper from the University of Oxford (with funding from Alphabet’s DeepMind) details an artificial intelligence system, called LipNet, that watches video of a person speaking and matches text to the movement of their mouth with 93.4% accuracy.

Even professional lip-readers can figure out only 20% to 60% of what a person is saying.

Pál Kerékfy's insight:

Itt egy újabb példa arra, hogy a mesterséges intelligencia tud jobb munkát végezni, mint a tapasztalt szakemberek. Az oxfordi kutatók által létrehozott LipNet alig hibázott a szájról olvasásban, míg a gyakorlott emberek hétszer annyi hibát követtek el.

 

Ami új ebben a szoftverben, az a szöveg feldolgozásának módja. A korábbi rendszerek szavanként értelmezték az ajkak mozgását, itt egész mondatokkal foglalkoznak – ez segít a kontextus megértésében.

 

Fontos megjegyzés: Rövid és jó minőségű felvételeket használtak. Zavaró körülmények esetén korántsem ennyire jók az eredmények. Ahhoz, hogy használható legyen (például nagyotthallók számára) még van mit fejleszteni rajta.

Továbbá: Két évvel ezelőtti a cikk, vagyis maga a fejlesztés és a tesztelés még régebben történt. Jön majd újabb is...

 

#OxfordUniversity #LipNet #Google #DeepMind #Alphabet #lipreading

No comment yet.
Scooped by Pál Kerékfy
Scoop.it!

Még ügyesebben olvas szájról a gép!

Még ügyesebben olvas szájról a gép! | collaboration | Scoop.it

Artificial intelligence is getting its teeth into lip reading. A project by Google’s DeepMind and the University of Oxford applied deep learning to a huge data set of BBC programmes to create a lip-reading system that leaves professionals in the dust.

Pál Kerékfy's insight:

Itt a folytatás, amit tegnap ígértem.

 

Szintén az oxfordi egyetem, szintén Google (DeepMind), de most nem külön erre a célra készített felvételeket, hanem rendes BBC-műsorokat (köztük: Newsnight, BBC Breakfast és Question Time) használtak a kutatók. 5000 órányi (2010 és 2015 között felvett) műsort használtak a gép tanításában, majd 2016 márciusa és szeptembere között vizsgáztatták. A hibátlanul leírt szavak aránya 46,8% volt. Ez nem tűnik soknak, de a profi szakembernek csak a negyede (12,4%) jött össze.

 

A tanítás során azzal a problémával is találkoztak, hogy sok felvételen nem volt szinkronban a hang és a kép, akár másodperces csúszás is lehetett. Azt is meg kellett tanítani a gépnek, hogy küszöbölje ki az elcsúszás hatását.

 

Van még hova fejlődni, de mindenképpen imponáló a négyszeres pontosság!

 

#Google #Alphabet #DeepMind #OxfordUniversity #AI #artificialintelligence #mesterségesintelligencia #lipreading #BBC

No comment yet.