A new paper from the University of Oxford (with funding from Alphabet’s DeepMind) details an artificial intelligence system, called LipNet, that watches video of a person speaking and matches text to the movement of their mouth with 93.4% accuracy.
Even professional lip-readers can figure out only 20% to 60% of what a person is saying.
Itt egy újabb példa arra, hogy a mesterséges intelligencia tud jobb munkát végezni, mint a tapasztalt szakemberek. Az oxfordi kutatók által létrehozott LipNet alig hibázott a szájról olvasásban, míg a gyakorlott emberek hétszer annyi hibát követtek el.
Ami új ebben a szoftverben, az a szöveg feldolgozásának módja. A korábbi rendszerek szavanként értelmezték az ajkak mozgását, itt egész mondatokkal foglalkoznak – ez segít a kontextus megértésében.
Fontos megjegyzés: Rövid és jó minőségű felvételeket használtak. Zavaró körülmények esetén korántsem ennyire jók az eredmények. Ahhoz, hogy használható legyen (például nagyotthallók számára) még van mit fejleszteni rajta.
Továbbá: Két évvel ezelőtti a cikk, vagyis maga a fejlesztés és a tesztelés még régebben történt. Jön majd újabb is...
#OxfordUniversity #LipNet #Google #DeepMind #Alphabet #lipreading