Google med spennende AI-nyheter

Googles årlige utviklerkonferanse I/O gikk nylig av stabelen, og ga oss som forventet at hav av nyheter innen kunstig intelligens. Noen av nyhetene vil snart forandre hverdagen vår på internett, mens andre ligger et stykke frem i tid.

Google har tidligere tatt seg god tid til utvikling og testing før de har lansert nye produkter, men med har konkurranse fra OpenAI, Meta, Microsoft og Anthropic har de nå begynt å presentere nyheter på løpende bånd. Her er noen av de viktigste nyhetene.

Kunstig intelligens i søk

Den nyheten som vil påvirke oss aller mest i hverdagen er at Google nå vil bruke kunstig intelligens mer i søkemotoren. I stedet for den vanlige listen med lenker, vil du i flere tilfeller få et sammendrag av resultatene, skrevet av chatboten Gemini. Listen med lenker vil fortsatt være der, men litt lenger ned på siden. Search Generative Experience (SGE), som funksjonen kalles, har vært testet ut an stund, men skal nå bli tilgjengelig for alle.

SGE har allerede fått mye kritikk fordi man frykter at sammendraget vil gjøre at brukerne ikke klikker på lenker, og at nettsider dermed vil få mindre trafikk. Google hevder at det ikke stemmer, og brukerne tvert imot klikker på et større utvalg av lenker med SGE.

Ser du etter inspirasjon, vil Google gi deg enda mer. Da vil hele resultatsiden fylles opp av forslag og idéer som er generert av AI. Dette vil først bli tilgjengelig i USA, ved søk på oppskrifter, restauranter, film, musikk, bøker, hotell, shopping og liknende.

Google Gemini

Gemini er Googles beste språkmodell og chatbot. Den får også en rekke oppdateringer som ble presentert på I/O. Gemini Pro 1.5, som er den beste versjonen, får nå et kontekstvindu på to millioner tokens.

Kontekstvinduet angir hvor mye informasjon modellen kan håndtere i hver forespørsel, og et token er et ord eller en del av et ord. To millioner tokens utgjør omtrent 1,4 millioner ord, to timer video eller 22 timer lyd.

I praksis vil det si at du kan laste opp flere tusen sider bakgrunnsinformasjon i samtaler med Gemini, og be modellen svare basert på informasjonen du har lastet opp.

Gemini Nano er også en miniversjon av språkmodellen. Den vil integreres i nettleseren Chrome, og gjøre at en del av AI-behandlingen kan skje på brukerens PC.

Gemini 1.5 Flash er en ny, komprimert versjon av språkmodellen som skal være mye raskere enn Pro-utgaven. Den kan håndtere like mye informasjon som sin storesøster, men kan bare generere tekst som svar.

Gemini vil også integreres i andre Google-tjenester, som Gmail og Maps. I Gmail vil det gi funksjoner som vi kjenner fra Microsoft Copilot allerede, hvor AI kan oppsummere en kjede med epost, eller foreslå et svar for deg. I Maps vil AI generere beskrivelser av steder du ser på kartet.

Gemini vil også integreres i Android, så flere av mobilappene vil få nye AI-funksjoner. Blant eksemplene som ble demonstrert var «Ask the video» i YouTube, hvor du kan stille spørsmål om innholdet i en video før du ser den.

Google TV vil også få Gemini innebygget. Den vil generere beskrivelser av programmer, og oversette beskrivelser til det språket du ønsker. Google TV med Gemini skal også kunne anbefale deg programmer, basert på dine egne preferanser.

Gemini Live

Gemini live er Googles svar på OpenAIs lansering dagen før. Med Gemini Live kan du snakke med AI-modellen og vise den bilder og video. Modellen svarer som et menneske, og tolker innholdet fra mobilens kamera i sanntid.

Gemini Live bygger på kjente produkter, som Google Lens og Google Assistant. I samarbeid med AI-modellen Gemini får de «superkrefter». Her kommer det store kontekstviduet i Gemini også til nytte, siden Gemini Live kan huske hva den har sett gjennom kameraet tidligere.

Gemini Live blir ikke tilgjengelig før senere i år, og vil være en del av Googles betalte AI-abonnement Gemini Advanced.

Gemini Live er et resultat av Project Astra, et prosjekt i Googles datterselskap DeepMind, som har til hensikt å utvikle AI-agenter. En AI-agent er et selvstendig program som bruker AI til å utføre spesifikke oppgaver. En AI-agent kan for eksempel ha som oppgave å overvåke konkurrentenes priser på nettet. Det vil den gjøre på egenhånd i bakgrunnen, uten at vi trenger å styre den.

I Gemini Live har DeepMind utviklet en AI-agent som fortløpende tolker bilder og lyd fra mobilens kamera og mikrofon, og responderer på det ved hjelp av språkmodellen Gemini.

Google Veo

Tidligere i år satte OpenAI en ny standard for AI-generert video med Sora. Nå følger Google etter med Veo. I likhet med Sora kan den generere HD-video på inntil et minutts lengde med imponerende kvalitet.

I tillegg til å generer imponerende video fra en tekstprompt, kan Veo redigere deler av videoen som er generert, eller lage video av et stillbilde. Det skal også være mulig å sette sammen flere prompter i en historie, og få Veo til å generere video på mer enn et minutt, sammensatt av flere klipp.

Imagen 3

Imagen, Googles bildemodell, har også fått en oppgradering. Den nye versjonen skal være bedre til å forstå instruksjonene i prompten, og skal generere mer detaljerte bilder.

En interessant nyhet med Imagen 3 er at den skal være mye bedre til å generere tekst. Bildemodeller har hittil været notorisk dårlige til å generere tekst på bilder, men dette skal Google ha klart å gjøre noe med i Imagen 3.

Svindelbeskyttelse

En av de mer oppsiktsvekkende demoene på Google I/O var en ny funksjon som kan avdekke svindelforsøk når du snakker i telefonen. Ved å bruke Geminis stemmeanalyse, kan AI kjenne igjen mønstre som ofte brukes av telefonsvindlere, og advare deg.

I demoen var det en svindler som utga seg for å være en bankansatt. Offeret fikk beskjed om at noe var galt, men at banken skulle bidra til at offeret ikke ble svindlet. Da «den bankansatte» sa til offeret at de måtte flytte pengene fra en konto til en annen, kom en alarmmelding opp på telefonen som advarte mot at dette sannsynligvis var svindel.

Selv om en slik funksjon utvilsomt kan være nyttig for mange, tok det ikke lang tid før personverneksperter advarte mot funksjonen. De mener en slik funksjon kan føre til sensur og alvorlige inngrep i brukernes personvern.

Apple ble møtt med tilsvarende reaksjoner da de ville bruke tilsvarende teknologi til å avdekke overgrepsmateriale i 2021.

Ny demo-tabbe

En ting Google ikke annonserte, var at de har fikset problemene med Geminis mulighet til å generere bilder. Google fjernet den muligheten etter at de fikk kritikk for at bildemodellen genererte historisk uriktige bilder. Da problemene oppstod i februar sa Google at de skulle fikses «veldig snart». Nå er det mai, og Googles nye versjon av Gemini kan fortsatt ikke generere bilder.

Google hadde også en ny demo-tabbe. En av demoene på I/O var en bruker som snakket med chatboten Gemini og brukte mobilens kamera til å vise AI-modellen hva som var problemet. I dette tilfellet, et gammeldags fotoapparat hvor filmen hadde satt seg fast. På sekunder kom Google Gemini opp med flere forslag til hva brukeren kunne gjøre, og videoen uthevet det anbefalte forslaget.

Problemet er bare at det forslaget som ble uthevet, åpne lokket og ta ut filmen, er det verste man kan gjøre. Det vil utsette filmen for lys, og ødelegge alle bildene man har tatt.

Det er for så vidt bare en liten detalj, men det er utrolig at Google ikke klarer å unngå slike tabber. En tilsvarende feil under lanseringen av chatboten Bard resulterte i at børsverdien på Googles morselskap Alphabet falt med 100 milliarder dollar over natten.


You may also like...

Skriv en kommentar

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.