Alexa, hur fungerar Siri? Röststyrning förklaras

Världen rör sig mot röstkommandon för allt, men hur exakt fungerar röstkontrollen? Varför är det så glittrande och begränsat? Här är vad du behöver veta som lekmanvändare.

Världen rör sig mot röstkommandon för allt, men hur exakt fungerar röstkontrollen?  Varför är det så glittrande och begränsat?  Här är vad du behöver veta som lekmanvändare.
Annons

Vi kan prata med nästan alla våra prylar nu, men exakt hur fungerar det? När du frågar "Vilken sång är detta?" Eller säger "Call Mom", händer ett mirakel av modern tech. Och medan det känns som om det är på framkanten, går den här tanken att prata med enheter tillbaka årtionden - nästan lika långt som jetpacks i science fiction!

Idag är huvuddelen av uppmärksamheten på röststyrd databehandling på smartphones. Apple, Amazon, Microsoft och Google står högst upp i kedjan, som alla erbjuder sitt eget sätt att prata med elektronik. Du visste vem de är: Siri, Alexa, Cortana och den namnlösa "Ok, Google". Vilket väcker en stor fråga ...

Hur tar en enhet talade ord och gör dem till kommandon som den kan förstå? I grunden kommer det ner till mönstermatchning och förutsägelser baserade på dessa mönster. Mer specifikt är röstigenkänning en komplex uppgift som kommer från akustisk modellering och språkmodellering .

Akustisk Modellering: Vågformer & Telefoner

vågform

Akustisk Modellering är processen att ta en vågform av tal och analysera den med hjälp av statistiska modeller. Den vanligaste metoden för detta är Hidden Markov Modeling, som används i vad som kallas uttalande modellering för att bryta tal ner i komponentdelar som kallas telefoner (inte förväxlas med faktiska telefonapparater). Microsoft har varit en ledande forskare på detta område i många år.

Hidden Markov Modeling: Sannolikhetstater

Hidden Markov Modeling är en prediktiv matematisk modell där det aktuella tillståndet bestäms genom att analysera utgången. Wikipedia har ett bra exempel med två vänner.

Tänk dig två vänner - Lokal vän och fjärrvän - som bor i olika städer. Lokal vän vill ta reda på hur vädret är som Remote Friend bor, men Remote Friend vill bara prata om vad han gjorde den dagen: gå, handla eller städa. Sannolikheten för varje aktivitet beroende på dagens väder.

Hidden Markov Modeling

Låta att detta är den enda informationen som finns tillgänglig. Med den kan Local Friend hitta trender i hur vädret ändras från dag till dag, och med hjälp av dessa trender kan hon börja göra utbildade gissningar om hur dagens väder kommer att baseras på hennes väns aktivitet igår. (Du kan se ett diagram över systemet ovan.)

Om du vill ha ett mer komplext exempel, kolla in det här exemplet på Matlab. I röstigenkänning jämför denna modell väsentligen varje del av vågformen mot vad som kommer före och vad som kommer efter och mot en ordlista av vågformer för att ta reda på vad som sägs.

I huvudsak, om du gör ett "th" ljud, kommer det att kontrollera det ljudet mot de mest troliga ljuden som vanligtvis kommer före och efter det. Kanske betyder det att man kontrollerar "e" -ljudet, "på" -ljudet och så vidare. När mönstret matchar rätt, har det hela ditt ord. Det här är en överförenkling, men du kan se Microsofts fullständiga förklaring här.

Språkmodellering: Mer än ljud

Akustisk Modellering går långt i att hjälpa din dator att förstå dig, men hur är det med homonymer och regionala variationer i uttal? Det är där språkmodellering spelar in. Google har drivit mycket forskning på detta område, främst genom användningen av N-grammodellering .

När Google försöker förstå ditt tal gör det det baserat på modeller som härrör från sin massiva bank av Voice Search och YouTube-transkriptioner. Alla dessa skrämmande fel videotexter har faktiskt hjälpt Google att utveckla sina ordböcker. De använde också avgick GOOG-411 för att samla in information om hur folk talar.

shutterstock_70757203

All denna språksamling skapade ett stort antal uttal och dialekter, vilket gjorde att det var en robust ordlista med ord och hur de låter. Detta möjliggör matchningar som har en kraftigt reducerad felsats än bruttoförsvar som matchas baserat på råa sannolikheter. Du kan läsa ett kortfattat papper som beskriver deras metoder här.

Medan Google är ledande inom detta område finns det andra matematiska modeller som utvecklas, inklusive kontinuerliga rymdmodeller och positionella språkmodeller, vilka är mer avancerade tekniker som är födda från forskning inom artificiell intelligens. Dessa metoder bygger på att replikera vilken typ av resonemang människor gör när de lyssnar på varandra. Dessa är mycket mer avancerade både när det gäller tekniken bakom dem, men även matematiken och programmeringen behövde kartlägga dessa modeller.

N-Gram Modellering: Sannolikhet Mäter Minne

N-grammodellering bygger på sannolikheter, men det använder en befintlig ordlista för att skapa ett förgreningsträ av möjligheter, som sedan slätas ut för effektivitets skull. På ett sätt betyder det att N-grammodellering undanröjer mycket av osäkerheten i ovannämnda Hidden Markov Modeling.

Som nämnts ovan kommer denna metods styrka från att ha en stor ordbok för ord och användning, inte bara primitiva ljud . Detta ger programmet möjligheten att berätta skillnaden mellan homofoner, som "beat" och "beet". Det är kontextuellt, vilket betyder att när du pratar om kvällens poäng, tar programmet inte upp ord om borscht.

Men dessa modeller är faktiskt inte bäst för språk, främst på grund av problem med sannolikheter för ord i längre fraser. När du lägger till fler ord i en mening, kommer denna modell lite av, eftersom dina tidiga ord sannolikt inte har laddat allt som behövs för din fullständiga tanke.

Det är dock enkelt och enkelt att implementera, vilket gör det till en bra match för ett företag som Google som gillar att kasta servrar vid beräkningsproblem. Du kan göra ytterligare läsning på N-gram Modelieng vid University of Washington, eller du kan titta på en föreläsning på Coursera.

Skriker i moln: Appar och enheter

Den som använder Siri känner till frustrationen av en långsam nätverksanslutning. Detta beror på att dina kommandon till Siri skickas över nätverket för att avkodas av Apple. Cortana for Windows-telefonen kräver också att en nätverksanslutning fungerar korrekt. I motsats till detta är Amazons Echo bara en Bluetooth-högtalare utan internet.

Varför skillnaden? Eftersom Siri och Cortana behöver tunga servrar för att avkoda ditt tal. Kan det göras på din telefon eller surfplatta? Visst, men du skulle döda din prestanda och batterilivslängd i processen. Det är bara meningsfullt att avlasta bearbetningen till dedikerade maskiner.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Tänk på det här sättet: ditt befäl är en bil som fastnat i leran. Du kan noga trycka ut dig själv med tillräckligt med tid och ansträngning, men det tar timmar och lämnar dig utmattad. I stället ringer du vägassistans och de tar ut din bil på bara några minuter. Nackdelen är att du måste ringa och vänta på dem, men det är fortfarande snabbare och mindre skattande.

Skrivbordsmodeller som Nuance brukar använda lokala resurser på grund av den kraftfullare hårdvaran. När allt kommer omkring, i Steve Jobs ord, är ditt skrivbord en lastbil. (Det gör det lite dumt att OS X använder servrar för bearbetning.) Så när du behöver bearbeta språk och röst, är den redan utrustad tillräckligt bra för att hantera det själv.

Å andra sidan tillåter Android utvecklare att inkludera offline taligenkänning i sina appar. Google gillar att komma före tekniken, och du kan satsa på att de andra plattformarna kommer att få denna förmåga eftersom hårdvaran blir kraftfullare. Ingen tycker om det då dålig täckning eller dålig mottagning lobotomizes deras enhet.

Börja använda röstkommandon nu

Nu när du vet de grundläggande begreppen bör du leka med dina olika enheter. Prova den nya rösttypen i Google Dokument Hur rösttypning är den nya bästa funktionen i Google Dokument Hur rösttypning är den nya bästa funktionen i Google Dokument Röstigenkänning har förbättrats med språng i de senaste åren. Tidigare i veckan introducerade Google äntligen rösttyp i Google Dokument. Men är det bra? Låt oss ta reda på! Läs mer . Som om webbkontorsuiten inte redan var tillräckligt kraftfull, tillåter röstkontrollen att helt diktera och formatera dina dokument. Detta expanderar på den kraftfulla tekniken som de redan har utformat för Chrome och Android.

Andra idéer är att ställa in din Mac för att använda röstkommandon Så här använder du talkommandon på din Mac Så här använder du talkommandon på din Mac Läs mer och ställ in ditt Amazon Echo med automatisk utcheckning Hur Amazon Echo kan göra ditt hem ett smart hem Hur Amazon Echo kan göra ditt hem En smart hem smart hemteknik är fortfarande i sina tidiga dagar, men en ny produkt från Amazon kallad "Echo" kan hjälpa till med att få det till det vanliga. Läs mer . Lev i framtiden och omfamna att prata med dina prylar - även om du bara beställer fler pappershanddukar. Om du är en smartphone missbrukare har vi också handledningar för Siri 8 saker som du förmodligen inte insett Siri kunde göra 8 saker du förmodligen inte insåg Siri kunde göra Siri har blivit en av iPhone: s definierande funktioner, men för många människor, det är inte alltid det mest användbara. Medan vissa av detta beror på begränsningarna av röstigenkänning, är odditeten att använda ... Läs mer, Cortana 6 coolaste saker du kan styra med Cortana i Windows 10 6 Coolaste saker du kan kontrollera med Cortana i Windows 10 Cortana kan hjälpa dig gå handsfree på Windows 10. Du kan låta henne söka i dina filer och på webben, göra beräkningar eller dra upp väderprognosen. Här täcker vi några av hennes kallare färdigheter. Läs mer och Android OK, Google: 20 + Användbara saker du kan säga till din Android-telefon OK, Google: 20 + Användbara saker du kan säga till din Android-telefon Långsamt, utan att vi märker, har framtiden kommit fram. Läs mer .

Vad är din favoritanvändning av röststyrning? Låt oss veta i kommentarerna.

Bildkrediter: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock

In this article