Fem frågor om Microsofts "Project HoloLens"

Microsofts nya Augmented Reality-headset är mycket spännande - men kan de lösa de grundläggande problemen med AR?

Annons

Onsdag morgon visade Microsoft ett projekt som de har jobbat i i sju år, ett förstärkt verklighetshuvud som heter Project HoloLens .

Visionen är ambitiös: de vill fundamentalt förändra hur människor interagerar med datorer, genom att bygga ett par glasögon som kan vätska blanda virtuellt och verkligt innehåll tillsammans i användarens fysiska utrymme. Det här är som virtuell verklighetsteknik Varför virtuell verklighetsteknik kommer att blåsa ditt sinne om 5 år Varför virtuell verklighetsteknik kommer att blåsa ditt sinne om 5 år Framtiden för den virtuella verkligheten innefattar huvud-, ögon- och expressionsspårning, simulerad touch och mycket mer. Dessa fantastiska tekniker kommer att vara tillgängliga för dig om 5 år eller mindre. Läs mer, men grundläggande mer kraftfull. Dessutom vill de göra all bearbetning lokalt på glasögonen - ingen dator, ingen telefon, inga kablar. De startar även en speciell version av Windows bara för den nya hårdvaran. Detta är nästa steg i teknisk utveckling för alla dessa AR-spel Augmented Reality Apps: Användbar, eller bara Hype? MakeUseOf Tests Augmented Reality Apps: Användbar, eller bara Hype? MakeUseOf-test Under 2011 förutspådde analytiker ökningen av mobilappar på Augmented Reality. Den framväxande tekniken skulle revolutionera hur vi interagerar med våra mobila enheter. Flash framåt två år och dussintals AR-appar fyller alla ... Läs mer du installerade på din telefon den en gång och har inte berört sedan.

Deras tidsram är ännu mer ambitiös än sina mål: de vill skicka utvecklingspaket under våren och konsumentprodukten "under Windows 10 tidsramen". Här är tonhöjden.

Allt detta låter bra, men jag erkänner en ganska hög grad av skepsis.

Tekniken som Microsoft använder har allvarliga, grundläggande utmaningar, och hittills har Microsoft varit mycket snävt om hur (eller om) de har löst dem. Om de inte har löst dem, är deras mål om frakt inom ett år mycket om. Det sista som VR och AR behöver är ett stort företag som levererar en annan halvbakt produkt som Kinect. Kom ihåg Project Natal demo från 2009?

Utan ytterligare ado är här de fem viktigaste sakerna jag skulle vilja veta om HoloLens.

Är detta en ljusfältdisplay?

För att förstå detta måste vi titta lite djupare på 3D, och hur det fungerar. För att få känslan av en riktig, konkret 3D-värld, integrerar våra hjärnor en mängd olika typer av information. Vi får djupgående cues om världen på tre primära sätt:

Stereodjup - skillnaden mellan vad båda våra ögon ser. Faking detta är hur 3D-filmer fungerar
Motion parallax - subtila rörelser i vårt huvud och torso ger oss ytterligare djupinställningar för objekt som ligger längre bort
Optisk fokusering - när vi fokuserar på något, deformerar våra ögonlinser fysiskt till dess att det kommer i fokus Närliggande objekt kräver mer linsförvrängning, vilket ger djup information om vad vi tittar på

Optisk fokus är enkelt att kolla själv: stäng ett öga och håll tummen upp framför en vägg över rummet. Ändra sedan ditt fokus från din miniatyrbild till ytan bakom den. När du tittar förbi tummen kommer din tumme att växla ur fokus eftersom linsen i ditt öga nu är mindre deformerad och inte kan samla in det ljus som kommer från det.

VR-headset som Oculus Rift ger de första två ledtrådarna extremt noggrannhet, men inte det sista som fungerar överraskande bra: våra ögon är vanliga att koppla av helt, eftersom optiken fokuserar på bilderna som genom ljuset kommer från oändligt långt borta. Bristen på den optiska fokuskoden är orealistisk, men det är vanligtvis inte distraherande. Du kan fortfarande ha väldigt snygga spelupplevelser 5 Oculus Rift Gaming-upplevelser som kommer att blåsa bort dig 5 Oculus Rift-spelupplevelser som kommer att blåsa bort dig Nu när andra generationens Oculus Rift-utvecklingspaket är ute och i händerna på utvecklare världen över, Låt oss titta på några av de bästa sakerna som hittills har slagit Rift. Läs mer utan det.

I förhöjd verklighet är problemet annorlunda, eftersom du måste mixa ljus från verkliga och virtuella objekt. Ljuset från den verkliga världen kommer naturligtvis att fokuseras på olika djup. Det virtuella innehållet kommer dock att vara fokuserat på ett fast, konstgjort avstånd dikterat av optiken - förmodligen i oändligheten. Virtuella objekt ser inte ut som om de verkligen är en del av scenen. De kommer att vara out of focus när man tittar på riktiga saker på samma djup och vice versa. Det kommer inte vara möjligt att flytta ögat vätskeformigt över scenen samtidigt som det hålls i fokus, som du normalt gör. De motstridiga djupgående signalerna kommer att vara förvirrande i bästa fall och sjuka i värsta fall.

För att åtgärda detta behöver du något som kallas en ljusfältdisplay. Ljusfältdisplayer är skärmar som använder en uppsättning små linser för att visa ljus fokuserat på många djup samtidigt. Detta gör det möjligt för användaren att fokusera naturligt på skärmen och (för ökad verklighet) löser problemet som beskrivs ovan.

Det finns emellertid ett problem: I ljusfältet visas väsentligen en enkel 2D-skärm på ett tredimensionellt ljusfält, vilket innebär att varje "djuppixel" som användaren uppfattar (och existerar vid ett visst fokusdjup i scenen) är faktiskt består av ljus från många pixlar på den ursprungliga skärmen. Den finare kornet djupet du vill skildra, desto mer upplösning måste du ge upp.

I allmänhet har ljusfält ungefär en åtta-faldig upplösningsminskning för att ge tillräcklig djup precision. De bästa tillgängliga mikrodisplayerna har en upplösning på ca 1080p. Om man antar att ett avancerat mikrodisplay kör varje öga, skulle det göra att den faktiska upplösningen av Microsofts headset endast är cirka 500 x 500 pixlar per öga, mindre jämnt än Oculus Rift DK1. Om skärmen har ett högt synsfält blir virtuella objekt oförståliga kluster av pixlar. Om det inte gör det, kommer nedsänkning att lida proportionellt. Vi får faktiskt aldrig se igenom linsen (bara datorreparationer av vad användaren ser), så vi har ingen aning om hur användarupplevelsen verkligen är.

Det är möjligt att Microsoft har kommit med en ny lösning på detta problem, för att tillåta användning av en ljusfältdisplay utan upplösningshantering. Men Microsoft har varit extremt cagey om sin displayteknik, vilket får mig att misstänka att de inte har det. Här är den bästa förklaringen vi har hittills (från WIRED- demo).

För att skapa Project HoloLens bilder tippar ljuspartiklar runt miljontals gånger i enhetens så kallade ljusmotor. Sedan kommer fotonen in i glasögonens två linser, där de ricochetterar mellan lager av blått, grönt och rött glas innan de når ditt öga.

Denna typ av beskrivning av tekniken skulle kunna betyda praktiskt taget allting (dock i rättvisa till Microsoft, visade hårdvaran WIRED, men artikeln var lätt på detaljer).

Vi vet inte mer säkert tills Microsoft börjar släppa tekniska specifikationer, förmodligen månader från och med nu. Vid en ytterligare notering av nitplockning är det verkligen nödvändigt att drunkna projektet i den här mycket marknadsföringstalen? Den dedikerade processorn de använder för huvudspårning kallas en "holografisk processor" och bilderna kallas "hologram", utan någon speciell anledning. Produkten är i grunden cool så att det egentligen inte är nödvändigt att gälla det så här.

Är spårningen bra nog?

Projekt HoloLens-headsetet har en hög FOV-djupskamera monterad på den (som Kinect), som den använder för att ta reda på var hörlurarna befinner sig i rymden (genom att försöka ställa in den djupbild som den ser med sin världsmodell, komposit från tidigare djupbilder). Här är deras levande demo av headsetet i aktion.

Spårningen är imponerande med tanke på att det inte använder några markeringar eller andra fuskar, men även i den videon (under starkt kontrollerade förhållanden) kan du se en viss mängd wobble: spårningen är inte helt stabil. Det kan förväntas: den här typen av inåtvänd spårning är extremt svår.

Den stora lektionen från de olika Oculus Rift-prototyperna Se Oss Försök Oculus Rift Crescent Bay Vid CES 2015 Se Oss Försök Oculus Rift Crescent Bay Vid CES 2015 Oculus Rift Crescent Bay är en helt ny prototyp som visar upp några spännande förbättringar i virtuell verklighetsteknik. Vi prövar det vid CES 2015. Läs mer är att noggrannheten i spårningen är mycket viktig. Jittery spårning är bara irriterande när det är några föremål i en i stort sett stabil verklighet, men i scener som Mars demo visade de i sin konceptvideo, där nästan allt du ser är virtuellt, kan otrygg spårning leda till brist på " närvaro "i den virtuella scenen, eller till och med simulatorsjuka. Kan Microsoft få spårningen upp till den standard som Oculus ställer (under millimeter spårningsnoggrannhet och mindre än 20 ms total latens) vid leveransdatum i slutet av detta år?

Här är Michael Abrash, en VR-forskare som har arbetat för både Ventil och Oculus, pratar om problemet

[Eftersom det alltid finns en fördröjning i att generera virtuella bilder, är det väldigt svårt att få virtuella och reella bilder att registrera tillräckligt nära så att ögat inte märker. Antag exempelvis att du har en riktig Coke-kan som du vill bli en AR Pepsi-burk genom att dra en Pepsi-logotyp över Coke-logotypen. Om det tar dussintals millisekunder att redravera Pepsi-logotypen, kommer varje gång du roterar huvudet att Pepsi-logotypen verkar skifta några grader i förhållande till burken, och en del av Coke-logotypen blir synlig. då kommer Pepsi-logotypen att snäppa tillbaka till rätt ställe när du slutar flytta. Detta är tydligen inte tillräckligt bra för hård AR

Kan bildskärmen rita svart?

Ett annat problem bredvid brännvidd och spårning har att göra med att dra mörka färger. Att lägga mer ljus på en scen är relativt enkelt, med hjälp av strålskivare. Att ta ljuset är mycket svårare. Hur selekterar du selektivt delar av den verkliga världen? Att sätta upp en selektivt transparent LCD-skärm kommer inte att skära den, eftersom det inte alltid kan vara rätt fokus för att blockera vad du tittar på. De optiska verktygen för att lösa detta problem, om inte Microsoft har uppfunnit dem hemligt, existerar helt enkelt inte.

Det här är viktigt, för att många av de applikationer som Microsoft visar upp (som att titta på Netflix på din vägg) behöver headsetet verkligen möjligheten att ta bort ljuset som kommer från väggen, annars kommer din film alltid att ha ett synligt stiftmönster överlagrat med det: det är omöjligt för bilder att blockera ut verkliga föremål i scenen, vilket gör användningen av headsetet starkt beroende av omgivande ljusförhållanden. Tillbaka till Michael Abrash:

Det är inte så långt som någonting har uppstått i AR-branschen eller litteraturen, och såvida inte och tills det gör, kan hård AR, i den SF-känsla som vi alla känner och älskar, inte hända, utom i nästan mörkret.
Det betyder inte att AR är utanför bordet, bara det för ett tag ändå blir det mjukt AR, baserat på tillsatsblandning [...] Återigen, tänka genomskinliga som "Ghostbusters." Högintensiva virtuella bilder utan mörka områden kommer att arbeta också, särskilt med hjälp av regional eller global mörkare - de kommer inte att se ut som en del av den verkliga världen.

Vad om ocklusion?

"Occlusion" är termen för vad som händer när ett objekt passerar framför en annan och hindrar dig från att se vad som ligger bakom det. För att virtuella landskap ska känna sig som en konkret del av världen är det viktigt att verkliga objekt tömmer virtuella objekt: om du håller handen upp framför en virtuell bild, bör du inte kunna se den genom din hand. På grund av användningen av en djupkamera på headsetet är detta faktiskt möjligt. Men titta på live demo igen:

I stort sett kontrollerar de noggrant kameravinklarna för att undvika verkliga föremål som passerar framför virtuella. Men när demonstranten samverkar med Windows-menyn kan du se att hennes hand inte utesluter det alls. Om detta är bortom räckvidden av deras teknik, är det ett mycket dåligt tecken på lönsamheten hos deras konsumentprodukt.

Och talar om det gränssnittet

Är detta verkligen den sista användargränssnittet?

Den gränssnitt som visas av Microsoft i demo-videon verkar fungera genom att använda en kombination av blick och handspårning för att styra en markör i den virtuella scenen, samtidigt som du använder röstkontroller för att välja mellan olika alternativ. Det har två stora nackdelar: det gör att du ser ut som det lilla barnet i Shining som pratar med fingret, men viktigare är det också ett fundamentalt felaktigt designparadigm.

Historiskt sett har de bästa användargränssnitten varit sådana som ger fysiska intuitioner om världen i den virtuella världen. Musen förde med att klicka, dra och fönstren. Touch-gränssnittet medbringade dra för att bläddra och klämma för att zooma. Båda dessa var kritiska för att göra datorer mer tillgängliga och användbara för den allmänna befolkningen - för att de var grundläggande mer intuitiva än vad som hänt tidigare.

VR och AR ger dig mycket mer frihet som designer: du kan placera UI-element var som helst på ett 3D-utrymme, och få användarna att interagera med dem naturligt, som om de var fysiska objekt. Ett stort antal uppenbara metaforer föreslår sig. Tryck på ett virtuellt användargränssnitt för att markera det. Knippa till det hämta det och flytta det. Skjut det ur vägen för att lagra det tillfälligt. Krossa det för att radera det. Du kan tänka dig att bygga ett användargränssnitt som är så fullständigt intuitivt att det inte behöver någon förklaring. Något som din mormor direkt kan hämta, eftersom den bygger på en grund av grundläggande fysiska intuitioner som alla bygger upp under en livstid att interagera med världen. Ta en minut och lyssna på den här smarta personen beskriva vilka nedsänkta gränssnitt som kan vara.

Med andra ord verkar det vara uppenbart (för mig) att ett fördjupande användargränssnitt ska vara minst lika intuitivt som de beröringsgränssnitt som pionjärer iPhone för 2D multitouch-skärmar. Att bygga ett gränssnitt kring att manipulera en VR-mus är ett steg bakåt och avslöjar antingen djupa tekniska brister i deras handspårningsteknik eller ett grundläggande missförstånd om vad som är intressant för detta nya medium. Hur som helst är det ett mycket dåligt tecken på att den här produkten är mer än en kolossal Kinect-skala-flop.

Förhoppningsvis har Microsoft tid att få feedback om detta och göra ett bättre jobb. Som ett exempel är här ett gränssnitt utformat av en hobbyist för Oculus Rift DK2 och Leap Motion. Ett fördjupande gränssnitt designat av ett stort företag borde vara minst så bra.

Ett tecken på saker att komma

Sammantaget är jag extremt skeptisk till HoloLens-projektet som helhet. Jag är väldigt glad att ett företag med Microsofts resurser undersöker problemet, men jag är oroad över att de försöker skynda ut en produkt utan att lösa några kritiska underliggande tekniska problem eller spika ner ett bra UI-paradigm. HoloLens är ett tecken på saker att komma, men det betyder inte att själva produkten kommer att ge en bra upplevelse för konsumenterna.

Bildkredit: Med tillstånd från Microsoft