Lucrând în condiții ideale, folosind material video înregistrat cu voluntari puși să rostească propoziții formulate după un anumit tipar, un alt software pentru interpretare vocală numit LipNet a obținut o acuratețe de 93.4%, comparat unui rezultat de 52.3% obținut cu ajutorul unui interpretor profesionist, scrie Go4it.
Antrenat citind „pe buze” conversațiile purtate în peste 5000 ore de programe TV, software-ul Google botezat „Watch, Listen, Attend, and Spell” ar putea extinde capabilitatea de interpretare a programelor de asistență prin comandă vocală (ex. Siri, Alexa), cât și ajuta subtitrarea programelor de televiziune.
Nu tocmai liniștitoare, perspectiva unui software AI capabil spioneze de la distanță citind pe buze conversațiile purtate în spații publice pare mai aproape decât oricând. Echipa de cercetători vine însă cu observații, precizând că este o diferență mare între citirea „pe buze” a conversațiilor din imagini de televiziune bine iluminate și interpretarea fluxului video preluat de pe camere CCTV, în general mai puțin clar și cu framerate redus.
Foto:time.com