Aşırı Zeki Dijital Asistanlar Konusunda Devrimin Eşiğindeyiz

Şimdi okuyacağınız hikayelerden ilkini duymuş olabilirsiniz, ikincisini ise muhtemelen duymadınız. 1979’da genç Steve Jobs, Kaliforniya Palo Alto’daki Xerox Park adlı efsanevi AR-GE laboratuvarını ziyaret etti ve şimdilerde grafiksel kullanıcı arayüzü olarak bilinen şeyin tanıtımına şahit oldu. PARC mühendislerinden biri ikonlar, aşağı doğru açılan menüler ve masanın üstüne yığılmış sayfalar gibi üst üste duran “pencereler” ile dolu bir bilgisayar ekranında bir prototip fare kullanarak işlem yapıyordu. Bu Jobs’un daha önce gördüğü hiçbir şeye benzemiyordu ve aklını başından aldı. Bu olaydan sonraları şu şekilde bahsedecekti: “10 dakika içerisinde, bir gün tüm bilgisayarların bu şekilde kullanılacağı belli olmuştu.”

 

Efsaneye göre, Jobs Apple ofisine geri dönüp az önce PARC’ta  gördüğü şeyin aynısını yapıp daha da geliştirmek üzere bir ekip oluşturdu. Bu olayla birlikte, kişisel bilgisayar piyasası ilk Macintosh’tan iPhone’a kadar, son 40 yıldır gittiği yöne doğru hızla ilerlemeye başladı. Bilgi işlemenin bu görsel modu, o dönem baskın olan uğraştırıcı ve metin ağırlıklı komuta zincirinin saltanatına son verdi ve bizi daha fazla insanın bilgisayar kullanabildiği bir dünyayla tanıştırdı. Artık imleci hareket ettirip tıklamak ve sürüklemek yeterliydi.

 

Buna rağmen, çok da uzak olmayan bir gelecekte, PARC’ın heyecan verici icadı denildiğinde akla gelen hikaye bu olmayabilir. Jobs’un ziyaretini gerçekleştirdiği dönemde, PARC dahilindeki başka bir ekip insan-bilgisayar etkileşiminde bambaşka bir model üzerinde çalışıyordu, bu modele bugün konuşmalı arayüz adı veriliyor. Bu bilim insanları, onyıllar öncesinden, kullanıcıların her işlem için belirli komutları ya da iş akışlarını ezberlemesini elverişsiz kılacak kadar güçlü bilgisayarların olduğu bir dünya tasavvur ettiler. Bunun yerine bilgisayarlarımızla iş birliği içinde olduğumuz, işlerimizi halletmek için bilgisayarlarla karşılıklı diyalog kurabileceğimiz bir dünyayı düşlediler.  Hayal ettikleri arayüz insan dilini kullanmalıydı.

 

Bu gruptaki bilim insanlarından biri Ron Kaplan’dı, kendisi bugün gri keçi sakalı ve seyrekleşen saçlarıyla iri yarı ve tatlı dilli bir adam. Kaplan hem dilbilimci, hem psikolog, hem de bilgisayar uzmanıdır – yani  Chomsky’nin dil yapılanması teorileri kadar Moore Yasası’ndan da yardım alabilecek biridir. Kaplan, ekibinin 70’li yıllarda etkileşimli arayüzlerin önemli bir birleşeninin tasarımında çok fazla yol kat ettiğini, ve İngilizce mesajlar yardımıyla uçak bileti rezervasyonu yapabildiğiniz bir sistem geliştirdiklerini anlatıyor. Ancak sistemin kullanımının yayılması için yeterli teknoloji mevcut değildi. “Kullanıcı başına bir milyon dolar gibi bir rakama mal olurdu.” diyor Kaplan. Daha hızlı ve daha yaygın işlemcilere ve daha akıllı, daha verimli bilgisayarlar gerekliydi. Kaplan bunun 15 yıl sonra gerçekleşeceğini düşündü.

 

“Kırk yıl sonra” diyor Kaplan, “artık hazırız.” Görünüşe göre, dünyanın geri kalanı da buna hazır.

 

Kaplan bugün ses destekli arayüz piyasasındaki en iyi oyuncu haline gelen Nuance Communications’ın genel başkan yardımcısı ve buranın seçkin bilim insanlarından biri. Nuance Communications Ford’un araba içi Sync sisteminin sağlayıcısı olan, Siri’nin geliştirilmesinde önemli rol oynamış ve neredeyse her endüstride ortaklıkları bulunan bir şirket.  Ancak Nuance bugünlerde kendini kalabalık bir pazarın içinde buldu. Amazon’dan Intel’e, Microsoft’tan Google’a neredeyse bütün büyük teknoloji firmaları, Kaplan ve PARC ekibinin on yıllar önce hayal ettiği etkileşimli arayüzün peşinde. Onlarca girişim de bu yarışa dahil oldu. Herkes teknolojiyle olan ilişkimizde yapılacak güçlü değişimde öne çıkmanın mücadelesini veriyor. Bu şirketler, yakın gelecekte, cihazlarınızla arkadaşlarınızla konuştuğunuz şekilde konuşabileceğinize inanıyor. Cihazlarınız cevap da verebilecek. Söylediklerinizi duyup ne demek istediğinizi algılayabilecekler.

 

Bugünün teknolojisi ile içli dışlıysanız, bu yeni araçlar dijital hayatınızı grafiksel kullanıcı arayüz ile erişimin güvenli, keyifli ve kolay olmayacağı noktalara taşıyacaktır.  Cihazlarınızla olan iletişiminizin giderek daha da konuşmaya dayalı olması teknolojiyle olan ilişkinizi daha samimi, daha bağlı, daha kişisel hale getirecek.

 

Ancak bu değişimin en büyük etkisi Silikon Vadisi’nin çekirdek takipçi kitlesinin dışında hissedilecek. Steve Jobs’un 1979’da grafiksel kullanıcı arayüzünde popüler bilgisayar piyasasını genişletmenin bir yolunu görmüştü.  Ancak bu teknoloji ile dahi elektronik cihazların kullanımı tam olarak yaygınlaşamadı. Kullanışlı ve etkili de olsa, yine de bilgisayar dilini öğrenmeyi gerektiriyordu. Şimdiyse bilgisayarlar bizim dilimizi öğreniyor. Ayrıca, yüz milyonlarca insanın teknolojiyle tanışmasına aracı olunuyor.

 

Sesli arayüzler yıllardır zaten var, ancak şu bir gerçek: Şimdiye kadarki sesli arayüzler epey aptaldı. Otomatik telefon zincirleri rezaletiyle uğraşmak zorunda değiliz (‘ödeme yapmak için “ödeme” deyin’ gibi). Gelişmiş sesli arayüzlerinde dahi, konuşma tabanlı olmalarına karşın dilin gücü algılanamadı. Google Now’da New York’un nüfusunu arattığınızda cevap alırsınız. Empire State Binası’nın yerini sorun, cevabınız hazır. Ancak Empire State Binası’nın bulunduğu şehrin nüfusunu sorduğunuzda bocalar. Siri’nin biraz üstüne gittiğinizde sizi Google arama motoruna yönlendirir. Captain Kirk’ün Enterprise bilgisayarıyla konuşmasını ya da Tony Stark’ın Jarvis ile şakalaşmasını izleyerek büyüyen kişilerin hayal kırıklığına uğramaması mümkün değil.

 

Silikon Vadisi kitlesine sorduğunuzda ise defalarca aynı şeyi duyarsınız: “Artık her şey daha farklı.”

 

Sıcak bir Haziran gününde SoundHound CEO’su Keyvan Mohajer beni şirketinin yaklaşık 10 yıldır üzerinde çalıştığı bir uygulamanın prototipiyle tanıştırdı. SoundHound ismini popüler bir müzik tanıma programı olarak biliyor olabilirsiniz- şu telefonunuza mırıldandığınızda şarkıyı tanıyabilen program. Gerçekte ise bu uygulama Mohajer’in asıl hayaline giden bir basamak olarak kullanılıyor: dünyanın en iyi sesli yapay zeka asistanını yaratmak.

 

Prototipin adı Hound, ve gerçekten inanılmaz. Siyah Nexus 5 kullanıcısı Mohajer mavi beyaz bir mikrofon ikonuna tıklıyor ve sorular sormaya başlıyor. Berlin’deki saat ve Japonya’nın nüfusu gibi basit sorular soruyor. Bunlar basit arama motoru soruları – sonrasındaysa bir sürpriz: “Aradaki mesafe ne kadar?” Uygulama bağlamı kavrıyor ve cevap veriyor, “Yaklaşık 5,536 mil.”

 

Daha sonra Mohajer arka arkaya zorluk derecesi artan sorular sormaya başlıyor. Hound’dan bir milyon dolarlık bir evin aylık ipotek ödemesini hesaplamasını istiyor, ve uygulama anında faiz yüzdesi ile kredi süresini sorup cevabı veriyor: $4,270.84.

 

“Space Needle’ın bulunduğu ülkenin başkentinin nüfusu nedir?” diye soruyor.  Hound Mohajer’in Washington nüfusunu sormaya çalıştığını benden önce anlıyor ve hızlı robotik sesiyle doğru cevabı veriyor. “Japonya ile Çin’in nüfusları ve başkentleri nedir ve yüzey ölçümleri kaç mil kare ve kilometre karedir? Ayrıca Hindistan’da kaç kişinin yaşadığı ile Almanya, Fransa ve İtalya’nın alan kodlarını da söyle.” Mohajer soru ekleyip duruyordu ve sonunda nefesi tükendi. Bir dakika süren cevabı anlatarak başınızı şişirmeyeceğim, ancak Hound her soruya doğru cevabı veriyor.

 

Henüz beta olan Hound muhtemelen bugüne kadarki en hızlı ve çok yönlü ses tanıma sistemi. Şimdilik  ses tanıma ve doğal dil işlemeyi aynı anda yapabilmesi bakımından diğerlerinden bir gömlek daha üstün. Ancak diğer sistemlerin bu teknolojiyi yakalaması an meselesi.

 

Ne de olsa, güçlü bir etkileşimli arayüz için gereken ve Kaplan’ın “aracı teknolojiler” adını verdiği temel birleşenler satın almak isteyen herkesçe ulaşılabilir durumda. Bu klasik bir teknolojik tek tipleşme hikayesi: işlemci gücünde, ses tanımada, mobil bağlanabilirlikte, bulut bilgi işlemde ve sınır ağlarındaki ilerlemeler aşağı yukarı aynı dönemde kritik kütleye ulaştı. Bu araçlar sonunda etkileşimli arayüzü gerçekleştirilmesine ve yaygınlaşmasına imkan verecek kadar kaliteli, ucuz ve ulaşılabilir hale geldi.

 

Ancak konu etkileşim teknolojisinin yaratılmasının sonunda mümkün hale gelebilmesi değil. Artan bir ihtiyaç da söz konusu. Özellikle aydınlatma ya da duman alarmı gibi ekransız olanlar olmak üzere her yeni cihazda tuş, menü ya da ikonlar olmaksızın iletişim kurmanın yeni bir yoluna ihtiyacımız da artıyor.

 

Aynı anda, Jobs’un kurduğu grafiksel kullanıcı arayüzlü dünya sınıra dayanmış durumda. Güçlü ekran arayüzlerimiz akla gelen her özelliğin elle kodlanabilir olmasını ya da ikon/menü seçeneklerinin olmasını gerektiriyor. Photoshop ya da Excel’i düşünün: Her ikisi de o kadar becerikli ki, bunları verimli şekilde kullanmak için klavye kısa yolları, menü zincirleri ve bulması imkansız araç çubuklarından oluşan bir karmaşayı anlamak gerekiyor. Oturup sadece bir fotoğraf kırpmak istiyorsanız size iyi şanslar. “Grafiksel kullanıcı arayüzü zirvesini gördü. Şu an ise aşırı yükleme var.” diyor Kaplan.

 

İşte bu noktada gelişen sanal asistan piyasası devreye giriyor: siz yedi pencere, beş araç çubuğu ve 30 sekme içinde hapsolmuşken sizi kurtarmak, ve  normalde birbiriyle konuşmayan uygulamalar ile cihazlar arasında bir köprü görevi görmek için.

 

Şimdilik sanal asistanlarla çok fazla ilgilenmeyebilirsiniz ancak yakında muhtemelen ilgileneceksiniz. Bu yıl sonbaharda akıllı telefonunuza gelecek bir bildirim yoluyla etkileşimli arayüzlerde büyük bir ilerlemeye dair bilgilendirileceksiniz. iOS 9, Android 6 ya da Windows 10 güncellemelerini yaptıktan sonra kendinizi uygulamalardan daha çok Siri, Google Now ya da Cortana ile vakit geçirirken bulacaksınız. Yakında, bir milyardan fazla Facebook kullanıcısı, sohbet penceresini açıp yeni akıllı asistanı M’e istediğini sorabilecek (şimdilik sadece yazışarak).  Bunlar artık işlerinizi halletmenize yardımcı olacak tamamlayıcı yöntemler değil. En iyi yöntem, hatta bazı durumlarda tek seçenek bu (Apple’ın HomeKit sisteminde her şeyin kilitli ve kapalı olduğunu kontrol etmek için “Hey Siri, iyi akşamlar” demeniz gerekiyor).

 

En azından başlangıç için, bu yeni geliştirilen sanal asistanların arkasındaki fikir; aşağı açılır menüler, iş akışları ve uygulamadan uygulamaya geçerek yapmaktan bıktığımız karmaşık ve çok adımlı şeyleri basitleştirmek. Asistanınız telefondaki her uygulamanın her köşesini bilecek ve sesli komutlarınızla bunların arasında geçiş yapacak. Zamanla bir şeyi daha iyice tanıyacaklar: Sizi.

 

Şunu da kısaca açıklığa kavuşturalım: Etkileşimli teknoloji dokunmatik ekranı hatta fare ve klavyeyi bile ortadan kaldırmayacak. Masaüstü bilgisayarını bolca kullanan biriyseniz, muhtemelen öyle de kalacaksınız (Yine de sanal asistanınıza “Kırpma aracı nerede?” diye sorabilmenin faydasını sık sık göreceksiniz).

 

Ancak belirli gruplar için, etkileşimli arayüzün yükselişi grafiksel kullanıcı arayüzünün de ötesinde bir teknolojik yeterliliğe giden yolu açabilir. Örneğin, çok genç insanlar şimdiden klavyelerini kullanmayıp mesajları mikrofonlar aracılığı ile yazmaya başladılar. “Yazmak istemiyorlar” diyor sesli mesaj uygulaması Cord’un CEO ve kurucu ortağı Thomas Gayno. Diğer yaş gruplarına bakıldığında ise, grafiksel kullanıcı arayüzünü zaten kullanmayan önemli sayıda insan olduğunu görülüyor. Görme engelliler, yaşlılar ve farklı sebeplerle teknolojiden anlamayan kişilere insanların modern bilgisayar arayüzünü ‘kullanımı kolay’ olarak adlandırması komik geliyor.

 

Chris Maury bunu zor yoldan öğrendi. 2010 yazında o zamanlar 24 yaşındaki girişimci, doktorasını yarıda bırakmıştı ve Silikon Vadisi hayallerini gerçekleştirmek için Palo Alto’da bir arkadaşının şişme yatağında kalıyor ve ImageShack adlı girişimde staj yapıyordu. Bu zorlu koşturmaca ve zalimce denebilecek kadar uzun akşamların arasında, numaralı gözlüklerinin artık işe yaramadığını fark etti.  Göz doktorundan alınan bir randevu, Maury’e zamanla görme yetisini elinden alacak dejeneratif bir hastalık olan Stargardt tanısı konulmasıyla sonuçlandı.

 

Teknoloji alanında bir kariyer hedefleyen Maury o andan itibaren görmeden nasıl bilgisayar kullanacağını öğrenmek zorunda kaldı. Ancak Amerika’da görme engelli insan sayısı olan 20 milyon civarı insanın bilgisayarlarla bağlantı kurabilmesinin tek yolu var: Ekran okuyucu adlı 30 yıllık bir teknoloji.

 

Bu cihazlar, imlecin klavye yardımıyla hareket ettirilmesi ve makinenin seçilen şeyi zihin uyuşturan robotik bir tonda seslendirmesi -bu uzun bir URL ya da aşağı açılan bir menü olabilir- yoluyla çalışır.  Ekran okuyucu sistemleri binlerce dolara mal olabilir ve onlarca saatlik bir öğrenme süresi gerektirebilir. “Kimi zaman iki kez uğraştıktan sonra Google araması yapabiliyorsunuz” diyor Maury. Dijital ortamlar zorlaşmaya devam ettikçe, ekran okuyucuların kullanımı da zorlaştı. “Gerçekten korkunç bir sistem” diyor Maury.

 

Görme yetisi kötüye gittikçe Maury Görme Engelliler İçin Twitter’a (Evet, görme engellilere özel bir Twitter uygulaması mevcut) ve ulaşılabilirlik hareketine kendini kaptırdı. Fark etti ki, görme engeli olan insanlardan bazıları teknolojinin onlara sunduklarının azlığı nedeniyle öfkeliydi. Maury aynı zamanda bundan daha iyisinin olması için gereken birleşenlerin -yani ses öncelikli tasarlanmış bir arayüzün- Silikon Vadisi’nde ortaya çıktığının da farkındaydı.

 

Böylece Maury görme engelliler için teknolojiyi elde etmeye koyuldu. Öncelikle, sesli kullanıma öncelik veren uygulama ve servisler üretmek adına Conversant Labs adlı bir şirket kurdu. Coversant’ın ilk ürünü, konuşma yoluyla Target.com’dan alışveriş yapmanıza olanak tanıyan SayShopping adlı bir iPhone uygulaması oldu. Ancak Maury’nin çok daha büyük tasarımları var. Conversant Labs bu yıl bitmeden uygulamalara konuşmaya dayalı iletişim özelliğini eklemek adına iOS tasarımcılarına bir proje sunmaya hazırlanıyor. Maury ayrıca tamamıyla ses ile çalışan bir dijital ortam prototipi ve komut verirken kafa hareketlerini kullanacak bir arayüz tasarlamak da istiyor. “Hepsi şu an mümkün” diyor ve ekliyor: “Sadece tasarlanmaları gerek.”

 

2014’ün sonbaharında bir gün, ortada hiçbir şey yokken Amazon, Echo adlı, silindir şeklinde, üstünde cihaz konuşurken yanan mavi ışıklı bir halka bulunan siyah bir hoparlör tanıttı.  Cihaza yüklü karakterin ismi Alexa. “Uyarıcı kelimesini” duyduğu anda Echo uzak alan ses tanıma adlı bir teknolojiyi kullanarak onunla konuşan sesi nispeten gürültülü ortamlarda dahi ayırt edebiliyor. Sonrasında ise dinliyor. Hedef, Echo’nun oturma odası, mutfak ya da yatak odasının ortasında yer alması ve sizin çeşitli ihtiyaçlarınız için onunla konuşabilmeniz.

 

Görsel arayüz yüklenmemiş bir teknolojiyi anlamlandırmaya çalışmak gülünç. Görecek pek bir şey yok; kurcalayacak bir şey, kaydırarak ilerleyecek bir şey ve yapabileceklerine dair net sınırlamalar yok. Amazon’un bu yeni ‘gizemli’ ürünü teknoloji basının kafasını bariz şekilde karıştırmıştı. (En az bir yazar Echo’yu 2001: A Space Odyssey filminin başındaki esrarengiz siyah dikilitaşa benzetti.)

 

Geçen yılın sonlarında Alexa’yı kullanmaya başladığımda fark ettim ki hava durumunu söyleyebiliyor, basit fiili soruları cevaplayabiliyor, daha sonra akıllı telefonumda görebildiğim alışveriş listeleri oluşturabiliyor, komutumla müzik çalabiliyordu- çok üstün bir özelliği yoktu. Ancak kısa sürede Alexa daha zeki ve daha iyi olmaya başladı. Sesimi tanımaya başladı, komik şakalar öğrendi ve aynı anda birden fazla zamanlayıcı çalıştırabilmeye başladı (ki bu özellik yemek yapmayı takıntı haline getirdiyseniz epey faydalı oluyor). Beta sürümünün tanıtılması ile halka arz edilmesi arasında geçen 7 aylık sürede Alexa, sevimli ama sinir bozucu olmaktan çıkıp gerçek anlamda kullanışlı hale geldi. Ben onu tanıdım, o da beni.

 

Bu durum etkileşimli teknoloji hakkında daha derin bir gerçeği açığa çıkarıyor: Bir aracın ne yapabileceğini ancak onunla kişisel bir iletişim kurduğunuzda görebiliyorsunuz. Piyasadaki büyük firmaların hepsi bunun farkında ve asistanlarında kişilik, albeni ve saygılı bir mesafe dengesini kurmaya çalışıyorlar- yani kısacası onları sevilebilir kılmak istiyorlar. Örneğin; Cortana geliştirilirken, Microsoft bu bedensiz sese karakter katması için Halo’nun yapımcısı olan video oyunu stüdyosundan -bu stüdyo aynı zamanda Cortana isminin de ilham kaynağıdır-  yardım aldı. “Hazır cevaplılığı ve sertliği hissediliyor” diyor Cortana mühendis ekip lideri Mike Calcagno. Arzuladıkları etkiyi oluşturdular da: Cortana’nın güvenilmez, kullanışsız ve aptal olduğu ilk dönemlerde bile insanlar ona bağlanıyordu.

 

Bu sempati atağının stratejik bir nedeni var. Microsoft, Nuance ve diğer tüm firmaların yaptığı araştırmalar aynı sonuca çıkıyordu: İyi bir etkileşimli asistan yalnızca sizi farklı bağlamlarda tanıyabildiği –alışkanlıklarınızı öğrenebildiği, sevdiklerinizi/sevmediklerinizi, rutininizi ve programınızı bildiği- ve her yerde olabildiği sürece tamamıyla kullanışlıdır. Bunu sağlayabilmek için ise asistanınızın mümkün olduğunca çok uygulama ve cihazla işbirliği yapabilmesi gerekiyor.

 

Bu amaçla Amazon, Google, Microsoft, Nuance ve SoundHound etkileşimli platform teknolojilerini dünyanın her yerindeki geliştiricilere açıyor. Firmalar sizi en iyi tanıyan asistanı tercih etmek durumunda olduğunuzun farkında. O yüzden yeni bedensiz sesler duymaya alışın. Birini seçtikten sonra, asla ayrılmayabilirsiniz.

 

 

Bu makale wired.com’da David Pierce tarafından 2015’te yayınlanan yazıdan çevrilmiştir.

0 Shares:
Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Şunlar da Hoşunuza Gidebilir