To ona dała głos Stephenowi Hawkingowi

Lama Nachman, specjalistka Intela w dziedzinie sztucznej inteligencji, pomogła słynnemu fizykowi Stephenowi Hawkingowi odzyskać głos, tworząc specjalnie dla niego interfejs przełomowego syntezatora mowy. To dopiero początek drogi ku inteligentnym maszynom wspierającym ludzi w różnych aspektach.

Stephen Hawking z systemem Assistive Context Aware Toolkit, który pozwala mu mówić (zdjęcie: Doug Wheller, CC BY 2.0)

Profesora Stephena Hawkinga chyba nie trzeba nikomu przedstawiać. Ten błyskotliwy astrofizyk w wieku 21 lat zaczął chorować na stwardnienie zanikowe boczne (ALS). Lekarze prognozowali, że nie przeżyje dłużej niż trzy lata.

Życie okazało się jednak łaskawsze niż przewidywania medyków. Mimo wielu niedogodności choroba neuronu ruchu nie spowolniła jego kariery. Wydana w 1988 roku książka Krótka historia czasu. Od Wielkiego Wybuchu do czarnych dziur w ciągu dwudziestu lat od premiery rozeszła się na całym świecie w ponad 10 milionach egzemplarzy.

Jednak zanim odbyła się premiera tego bestsellera, Hawking stracił bezpowrotnie głos. Stało się to w 1985 roku, kiedy podczas podróży do CERN w Genewie, profesor zapadł na zapalenie płuc. Jego stan był na tyle poważny, że lekarze zapytali jego żonę, czy wyraża zgodę na odłączenie go od aparatury podtrzymującej życie. Jane Hawking nie wyraziła na to zgody, a naukowiec został przetransportowany do szpitala w Cambridge. Tutejszym lekarzom udało się uratować mu życie, ale ceną za nie było nieodwracalne uszkodzenie strun głosowych, jakie nastąpiło podczas zabiegu tracheotomii.

Początkowo Hawking komunikował się, korzystając ze specjalnych kart, potwierdzając właściwe litery uniesieniem brwi. Później sięgnął po ułatwienie w postaci trzymanego w ręce klikera i programu Equalizer zrobionego przez kalifornijską firmę Words Plus. Oprogramowanie działało na komputerze Apple II i umożliwiało profesorowi wybieranie za pomocą przełącznika słów i komend wyświetlanych na ekranie, które później wypowiadane były przez syntezator mowy. To rozwiązanie pozwalało mu na „mówienie” z prędkością do 15 słów na minutę, a jego charakterystyczny głos przez ponad dekadę należał de facto do syntezatora mowy NeoSpeech (od 2004 roku).

Would you like to use an Intel computer moving forward?

Podczas konferencji w 1997 roku Stephen Hawking spotkał się z wynalazcą pierwszego procesora i współzałożycielem Intela, Gordonem Moore’em (jest on również autorem prawa Moore’a). Moore zauważył, że astrofizyk w swoim systemie wspomagania mowy używa komputera z procesorem konkurencyjnej firmy. Miał wtedy powiedzieć „Would you like to use an Intel computer moving forward? We’d be happy to build that for you and support it.” Od tej pory Intel co dwa lata zaopatruje Hawkinga w nowy, lepszy sprzęt.

Niestety, postępująca choroba w 2008 roku tak osłabiła nerw odpowiadający za poruszanie kciukiem, że trzeba było poszukać innego sposobu komunikacji. Pierwszym pomysłem było wykorzystanie jednego z mięśni piersiowych i umieszczenie na nim czujnika. Ale podobno Hawking nie był zbyt entuzjastycznie nastawiony do tego rozwiązania. Profesor i inżynierowie z Intela znaleźli jednak inne miejsce, które usatysfakcjonowało obydwie strony. Tak powstał „przełącznik policzkowy”. Jest to czujnik podczerwieni przymocowany do okularów, który wykrywa zmianę oświetlanie, kiedy Hawking skrzywi policzek.

Lama Nachman ze Stephenem Hawkingiem. Fot. Intel

Hawking odzyskuje głos

Zmiana interfejsu była na tyle efektywna, że naukowiec mógł nie tylko komunikować się ze światem, ale pisał książki, sprawdzał maile, korzystał ze Skypa. Choroba była jednak bezlitosna i tak osłabiła jego ciało, że w 2011 roku napisał do Gordona Moore’a takie zdanie: „My speech input is very, very slow these days. Is there any way Intel could help?”. Jak możemy przeczytać w Wired, rzeczywiście sytuacja była tragiczna. Szybkość komunikacji spadła do 1-2 słów na minutę.

Wtedy do pracy przystąpili inżynierowie i naukowcy z Intel Labs, a wśród nich znalazła się ona: Lama Nachman, dziś kierująca Anticipatory Computing Lab firmy Intel. Podczas pierwszego spotkania Hawkingowi napisanie około 30 słów powitania zajęło 20 minut. To było dla naukowców przerażające, ale równocześnie niezmiernie motywujące do pracy.

W owym czasie profesor wciąż używał bardzo prostego interfejsu. W programie EZ Keys będącym następcą Equalizera kursor automatycznie przesuwał się po wyświetlanej na ekranie klawiaturze. Użycie „chick switcha” zatrzymywało kursor i wybierana była podświetlona litera. Kiedy wprowadzone zostały dwie, trzy litery, tak jak w starych komórkach, zaczynał działać prosty algorytm przewidujący to, co chcemy napisać.

Dla Nachman w 2011 roku to rozwiązanie wydawało się być mocno archaiczne. Intel już wtedy mógł zaoferować Hawkingowi rozwiązanie, które sięgnie po bardziej wyrafinowane metody, chociażby takie jak śledzenie ruchów gałki ocznej czy obsługę komputera poprzez monitorowanie fal mózgowych EEG. Problem w tym, że profesor nie chciał zmian. Poza jedną: chciał odzyskać szybkość komunikowania, jaką miał pięć lat wcześniej.

Jednak, jak opisuje to Nachman, były to tylko pozory. Podczas długich rozmów okazało się, że powrót do dawnej szybkości to jedno, a oczekiwanie nowych funkcji w starych szatach, to drugie. Tak rozpoczęła się trzyletnia praca nad systemem ACAT (Assistive Context Aware Toolkit).

W starym oprogramowaniu Hawkinga bardzo irytowały popełniane przez niego błędy podczas pisania. Omyłkowe wybranie litery niweczyło cały trud. Receptą na tego typu problemy miał być stworzony przez Intela edytor ASTER (ASsistive Text EditoR). Niestety po kilku miesiącach testów okazał się z punktu widzenia profesora na tyle skomplikowany, że mówił o nim „ASTER torture”.

W rezultacie zespół Nachman napisał oprogramowanie od podstaw. Zanim jednak zostało ono doprowadzone do perfekcji, powstało 60 jego wariantów. W procesie projektowania nowego systemu komunikacji, który jak najmniej miał różnić się od starego od strony użytkowej, ale miał nadać komunikacji nową jakość, zasadniczą rolę odegrał sam Hawking.

Jak sprawić, żeby stare było nowe

Lama Nachman wraz ze swoim zespołem stwierdziła, że skoro Hawking nie chce zmiany interfejsu to jedną z dróg do ulepszenia całego systemu jest obserwowanie zachowania jego użytkownika. Inżynierowie Intela nagrali setki godzin filmów, podpatrując jak profesor pisze, jak porusza się po komputerowym ekosystemie, jak redaguje teksty, jakich funkcji najczęściej używa w edytorze tekstu. Filmy pokazywały zestaw czynności, który należało uprościć i zautomatyzować. Przykładowo, żeby wyszukać coś w sieci, Hawking musiał wcześniej wykonać kilka klików, przesuwając kursor po ekranie. Najpierw musiał wyjść z okna komunikacji, potem uruchomić przeglądarkę, by skierować kursor do paska wyszukiwania, gdzie jeszcze musiał napisać, czego tak naprawdę szuka. Nowy system automatyzuje wszystkie te kroki i kilka klików zastępuje jedną komendą.

Innym znaczącym udogodnieniem, które pozwoliło wyeliminować błędy podczas wprowadzania liter, było przejście na algorytm predykcji dostarczony przez firmę SwiftKey, którą możecie znać ze smartfonów. Zaletą tego rozwiązania jest wbudowana w program możliwość uczenia się użytkownika. Jeśli raz za razem popełniamy błąd, a potem go korygujemy, wprowadzając dane słowo, SwiftKey po pewnym czasie zignoruje naszą pomyłkę i wprowadzi to, co tak naprawdę chcemy. W przypadku Hawkinga pamięć algorytmu dodatkowo przeszkolono na jego książkach i wykładach. Teraz wystarczy, że profesor wprowadzi kilka początkowych liter, a wyświetlone zostanie całe słowo, jakie zamierza napisać. Według danych Intela musi on wpisać mniej niż 20 procent wszystkich znaków!

Sukces, który pomoże innym

W rezultacie Stephen Hawking zaczął pisać dwa razy szybciej niż zakładano, aż dziesięciokrotnie wzrosła jego efektywność podczas wykonywania czynności takich jak edytowanie tekstów, przeglądanie WWW czy przełączanie się pomiędzy zadaniami.

Ten sukces spowodował, że od 2015 roku Assistive Context Aware Toolkit został udostępniony na zasadach open source dla każdego. Lama Nachman wierzy, że otworzy to szansę na komunikację ze światem ponad 3 milionom osób dotkniętych porażeniem narządu ruchu czy paraliżem czterokończynowym.

Badaczka podkreśla, że rozwiązanie Intela poza tym, że stało się darmowe i ogólnodostępne, ma jedną istotną cechę: nie jest zależne od żadnych sensorów. Jeśli tylko chory będzie wstanie poruszać choćby jednym mięśniem, to da się znaleźć sposób na to, by wykorzystać go do komunikacji z całym systemem. Może to być policzek, ale równie dobrze można założyć pacjentowi obrączkę z wbudowanymi czujnikami na jeden jedyny sprawny na palec.

Źródła: Intel Free Press, Wired, iQ, Open Source

Zdjęcie otwierające: Jim Campbell/Aero-News Network, Wikimedia Commons

Tekst jest elementem współpracy z firmą Intel. Partner nie miał wpływu na treść ani opinie, które wyrażamy