Луѓето природно ја имаат способноста да се фокусираат на посебен глас во врева, феномен кој е познат како коктел-забава ефект.

Но досега, компјутерските програми дизајнирани да препознаат специфични говорници во бучави аудио снимки не можеа да ја имитираат човечката дарба на селективно ментално намалување.

Новата вештачка интелегенција е дизајнирана да го следи движењето на усните додека пробува да го излора точниот глас во снимката. Кога истражувачите од Google ја тестираа новата програма забележаа дека новиот параметар за читање од усни овозможува многу поточни резултати.

Новата вештачка интелегенција се очекува да може да става превод на видеа многу подобро од моменталните системи за транскрипција. Исто така, се очекува дека новиот систем ќе помогне во развојот на компјутерски системи кои работат на вокални команди.