Компютрите най-сетне започват да ни чуват 21.10 | 11:38

Разработиха алгоритъм за анализиране на различията между гласовете

Изследователи от Масачузетския технологичен институт намериха нов начин да анализират различията между гласовете на хората, което ще позволи надеждно да се идентифицират те по гласа, като се отсейва несъщественият за разпознаването смисъл на информацията.

Новият алгоритъм не изисква значителни изчислителни ресурси и може да работи без допълнително обучение на компютъра.

Сега всички системи за идентификация и разпознаване на реч изискват обучение. Иначе казано, отначало човек произнася дума, дава възможност на машината да разбере особеностите на произношението му, след което става възможно разпознаването на неговата реч.

Точността на идентификация и разпознаване зависят от това колко време и сили е изразходвал човек за обучение на своя електронен помощник. Разбираемо е, че този метод е трудоемък, затова и беше почти безполезен в много перспективни сфери на приложение, например осигуряване на достъп с гласова парола и предаване на разговор между двама души.

За решаването на този проблем е необходим алгоритъм, който да отсейва индивидуалните особености на речта на хората. Тъкмо такъв алгоритъм са демонстрирали изследователите от MIT. Същността му е в особен метод за разпознаване на особеностите на речта, наречен i-vector. Новата технология дава същото качество на анализ на гласа, както и системите, изискващи обучение.

За да разберете как приблизително работи i-vector, си представете графика, която показва зависимостта на изразходваните в работа часове от полученото заплащане. Обичайната графика е диагонална линия в двуизмерно пространство. А сега си представете, че графиката е обърната по такъв начин, че всички линии са станали успоредни на линията на погледа. Така те се сливат в едно, линията Y става ненужна и всички изменения в графиката се описват от една линия X.

По подобен начин i-vector открива нови оси за описание на информацията, която характеризира звуците на речта в 120 000-мерно пространство. Отначало алгоритъмът намира оста, която описва голяма част от акустичната информация, след това следващата ос, съдържаща най-голямо количество информация, и т.н. В резултат количеството информация, добавяна с всяка нова ос, постепенно намалява.

В хода на експерименти учените от MIT са установили, че на новия алгоритъм му е достатъчна само 100-мерна акустична картина, за да опише всички възможни комбинации от звуци на човешката реч. Освен това в определени случаи с помощта на i-vector тяхното количество може да се намали до три.

Технологията i-vector позволява да се идентифицира говорещият за по-малко от 30 секунди. Ясно е, че новата технология ще бъде използвана преди всичко от спецслужбите, но новият алгоритъм ще намери широко приложение и във всекидневния живот, например компютрите ще могат да опознават собственика си по гласа, а значи ще отпадне проблемът със забравените пароли.

Системата за анализ на особеностите на речта може да помогне в разработката на нови технологии за разпознаване и автоматичен превод на звукови сигнали в електронни – команди или букви на монитора.