Prata med mig: Röstkontrollen tar av, men det tar inte över än

Anonim

Om oväntade paket börjar dyka upp vid din dörr kanske du vill ha ett ord med en av dina smarta enheter.

Tidigare denna månad frågade en sexåring i Dallas hennes familj Amazon Echo smart talare för ett dockhus. Och Alexa, Amazons Siri-liknande artificiell assistent, beställde omedelbart en till sitt hus.

En San Diego TV-nyhetsutställning hämtade upp historien och upprepade det oavsiktligt när en av nyheterna ankrar kommenterade: "Jag älskar den lilla tjejen och säger" Alexa beställde mig en docka "." Överhärdar det här, flera andra Amazon-enheter i hem tvärs över San Diego försökte köpa fler dockor.

Berättelsen kanske låter välbekant för alla som har försökt att prata med Apples Siri eller Microsofts Cortana. Våra enheter har blivit ganska bra att lyssna på oss, men det innebär inte alltid att de förstår.

Forskare hos Microsoft har nyligen identifierat detta som ett potentiellt problem med dagens pratar gränssnitt: de marknadsförs som "intelligenta" assistenter, med kloka skämt och världslig kunskap, men frustrerar ofta oss med sin brist på sunt förnuft.

I en liten studie fann forskarna att de personer som fortsatte att prata med sina digitala assistenter över tiden var de som hade börjat med de lägsta förväntningarna.

Vad gör ett röstgränssnitt faktiskt?

När du pratar med ett röstgränssnitt måste det:

  • Höra ljudet av din röst och skilja det från bakgrundsbrus
  • räkna ut var varje ord börjar och slutar, ignorerar dina "umms" och "ahhs"
  • matcha ljudet av varje ord till ett ord i ordlistan, plocka den rätta från kontext om det finns homofoner
  • korrekt tolka meningen med hela meningen
  • skapa ett meningsfullt och användbart svar som matchar din förfrågan.

Var och en av dessa är en komplex teknisk utmaning, och olika teknikföretag har gjort framsteg på olika områden.

Google Nu är bra för att ge relevanta svar på ett brett spektrum av förfrågningar eftersom det dra nytta av Googles uppgifter om webben och dina personliga aktiviteter om du använder Googles tjänster.

Amazon Echo är särskilt bra att höra dina önskemål från ett bullrigt rum, tack vare en brusreducerande fjärrfältmikrofonuppsättning. Det är självklart också bra att göra inköp via Amazon.

Under de senaste åren har röstgränssnittet blivit mycket bättre för att förstå vardagliga eller "naturliga" tal snarare än bara stiltade och noggrant ordnade kommandon. De är fortfarande bättre på att hantera enkla frågor, som "vem spelar i Australian Open?", Och tenderar att kämpa med mer komplicerade förfrågningar, som "vem spelar i Australian Open för första gången i år?" Och uppföljning frågor, som "kommer det att regna under finalen?".

Situationen är ännu mer blandad för andra språk än engelska: medan Siri stöder mer än 40 språk och dialekter, är Alexa hittills endast tillgängligt på engelska och tyska. Men alla dessa funktioner förbättras stadigt.

Där röstgränssnitt stotter

Så kommer röstgränssnitten snart att ta över all vår teknik, som förutsagts i filmen Hennes? Gartner, ett tekniskt forskningsföretag, har förutspått att nästa år kommer 30% av våra samspel med teknik att vara konversationer med röstaktiverade gränssnitt.

Men röstgränssnitt har begränsningar, och inte alla kan lösas med bättre teknik.

Bullerföroreningar är en stor hinder. Kan din enhet skilja vad du säger från bakgrundsbruset runt dig? Tekniken kan hjälpa till med det, inklusive brusreducering, personligt röstigenkänning och läsavläsning.

Men hur är bakgrundsljudet du skapar för andra genom att prata med din smarta enhet? Tänk dig en person som sitter bredvid dig på kontoret - eller på ett flygplan - chattar med Siri medan du försöker läsa, och du kan se varför röstgränssnitt inte alltid är socialt acceptabla.

En annan uppsättning frågor kommer från de mentala kraven på röstgränssnitt. Att lära sig att använda ett röstbaserat system kan vara svårt, särskilt om det inte finns någon skärm, som med Amazon Echo.

Om du någonsin ringt upp en bank eller ett telefonselskap vet du den eländiga kombinationen av koncentration och tristess som kommer från att lyssna på en syntetiserad röstlista över alla dina alternativ medan du väntar på den du behöver och försök att inte blanda dem upp. Traditionella grafiska gränssnitt undviker detta problem genom att visa dig de tillgängliga alternativen och låta dig snabbt trycka på ditt val.

När du har lärt dig röstkommandon kan det vara distraherande att använda dem. Forskare har funnit att röstkommandon spåra ditt tankegång mer än en mus och tangentbord.

Detta är särskilt farligt för bilens röstgränssnitt: Ett par studier från University of Utah fann att förare distraherades i upp till 27 sekunder efter att ha använt röstkommandon.

Hitta sin röst?

Så röstgränssnitt är osannolikt att helt överlåta, men de kommer att hitta användbara nischer i våra liv. De är redan vanliga i bilar, där de förhoppningsvis blir mindre distraherande när tekniken förbättras.

I köket kan du fråga Alexa för att prata dig genom ett recept eller uppdatera din shoppinglista medan dina händer är upptagna med matlagning. I virtuell och förstärkt verklighet kan röstgränssnitt låta dig styra systemet när du inte kan se dina händer alls.

I språkinlärning kan de användas för att utöva uttal. Viktigast, röstgränssnitt hjälper användare med nedsatt motorförmåga, RSI eller dyslexi att övervinna funktionshinder.

Röstgränssnitt är en efterlängtade teknik, och det finns goda skäl att tro att deras tid äntligen har kommit. Kom bara ihåg att de kanske inte är lika kloka som de låter. Och du kanske vill sätta en PIN-kod på röstköp om barnen är kvar.