Визијата на компанијата Гугл на полето на процесирањето се подобрува со текот на годините, за што говори и фактот дека нивната апликацијата Photos препознава лица, објекти и предмети. Сега Гугл сака истото да го направи и со гласот. Или поточно, со аудио-визуелно одвојување на говорот.

Доколку се наоѓате во група на луѓе и некој ваш познаник довикне по вас, вие и покрај тоа нешто не го гледате, благодарение на неговиот глас знаете дека тој е тука. Гласот има посебен образец кој може да биде распознаен, без оглед на галамата околу вас. Разликувањето на гласови за луѓето е лесно, а машините досега имаат мака со тоа.

Меѓутоа, истражувачкиот тим на Гугл разви систем на длабоко учење кој може да ги разликува гласоите гледајќи ги лицата на луѓето кои говорат и потоа може да се фокусира на тие гласови. Тимот успеа да го постигне ова преку обочување на системот прво да ги разбира и препознава поединечните гласови на луѓето кога зборуваат сами.

Потоа се симулирани и внесени индивидуални гласови, за вештачката интелегенција да може да научи да ги изолира гласовите во различни сегменти.

Според наводите од Гугл, техниката подразбира комбинирање на аудио и визуелни сигнали за видео влез, за да може разговорот да се издвои. Комбинацијата на визуелниот елемент, заедно со звукот, помага во раздвојувањето и прочистувањето на говорот поврзан со одреден видлив говорник во видеото.

Ова може да биде корисно за време на комуникација преку видео-чет. Гугл во моментов ја истражува можноста за тестирање на овие функции во своите производи како што се Hangouts и Duo.

Од компанијата исто така веруваат дека оваа технологија може да помогне во автоматските затворени системи за снимање, каде што повеќе говорници меѓусебно се преклопуваат. Може да се користи и како пред-процес за препознавање на говор. Алатката, исто така, може да биде и злоупотребена и да се користи во прислушувањето.