The researchers started with 140,000 hours of YouTube videos of people talking in diverse situations. Then, they designed a program that created clips a few seconds long with the mouth movement for each phoneme, or word sound, annotated. The program filtered out non-English speech, nonspeaking faces, low-quality video, and video that wasn’t shot straight ahead. Then, they cropped the videos around the mouth. That yielded nearly 4000 hours of footage, including more than 127,000 English words.
Az elmúlt napokban kétéves kutatásokról írtam. Ez sokkal frissebb, tavaly nyáron publikálták a Cornell University kutatói. Az ő szoftverük már nem csak BBC-műsorokon, hanem YouTube-videókon nevelkedett, és minden eddiginél jobb eredményt ért el. A vizsgálatban részt vevő profi szájról olvasók 93%-ot tévedtek, a korábbi szoftver 77%-ot, ez pedig csak 41%-ot. Ez még mindig sok, de a helyesen felismert szavak aránya több mint nyolcszorosa, mint az emberek esetében.
Ez a program már arra is figyel, hogy egy hangot másképp formázunk az ajkainkkal különböző hangok előtt és után. Természetesen, továbbra is szükséges, hogy szemből és jól lássa a beszélőt.
Lassan elérjük a használhatóság szintjét!
#CornellUniversity #YouTube #lipreading #AI #artificialintelligence #mestersegesintelligencia