Netflix tietosuoja haastettu

Netflix tietosuoja murtuu yhdistämällä kahden sivun tiedot. Netflix peräytyy tutkimushankkeesta.

Viime viikolla pitkään jenkkien suurin videovuokrausketju BlockBuster ilmoitti että se on ajautumassa konkurssiin. Vaikka konkurssi ei ole Yhdysvalloissa toiminnan loppu vaan uudelleenjärjestelyn paikka, on selvää, että videovuokraus toiminta on muuttunut viimeisen viiden vuoden aikana paljon. Netflix on yhdysvaltalainen videovuokrauspalvelu. Sen toiminnan ydin on verkossa toimiva palvelu joka suosittelee elokuvia katsojan aikaisempien elokuvien pohjalta. Olen itse arvotellut yli 1000 elokuvaa yhdestä viiteen tähteen -luokituksella.Netflix siis tietää makuni melko tarkkaan. Tuon tiedon ja miljoonien muiden samanlaisten makutietojen perusteella palvelu osaa arvioida minkä elokuvan saattaisin katsoa seuraavaksi. Aikaisemmin suosituksen saamiseksi piti kysyä kavereilta tai tiskin takana olevalta teinimyyjältä jonka maku ei välttämättä aina kohdannut omaa makua. Netflixin kautta valitut DVD tai Bluray -elokuvat saapuvat postilla kotiin. Palvelun kautta voi myös streamata osan elokuvista suoraan tietokoneelta tai sopivalta verkkoon kytketyltä laitteelta katsottavaksi.

NetFlixin todellinen innovaatio ja lisäarvon tuoja verrattuna muihin sen kilpailijoihin on kuitenkin suosittelujen tarkkuus. Omilla voimillaan yritys sai suosittelu algoritmit melko toimiviksi. 2009 se jakoi ensimmäisen Netflix prize kilpailun palkinnon: miljoona dollaria. Palkinnon sai ryhmä joka ensimmäisenä paransi suosittelualgoritmia kymmenellä prosentilla. Voittaja oli Team “BellKor’s Pragmatic Chaos”, jonka jäsenet olivat päivätöissä Yahoolla. Netflix sai Crowdsourcing menetelmällä halpaa työvoimaa sekä mittaamattoman arvokkaan parannuksen liikeomaisuuteensa. Tuloksista innostuneena yritys päätti toistaa kilpailun. Tuloksena oli joukkokanne. Netflix perääntyi kilpailusta ja joukkokanne on sovittu.

Mikä johti joukkokanteeseen? Netflix luovutti kilpailijoille datasetin algoritmin optimoimiseksi. Yritys oli tehnyt kaikkensa datan anonymisoimiseksi. Datasetti voidaan anonymisoida siten että yksin sen datan perusteella ei voi tunnistaa rekisteröityjä henkilöitä. Tutkijat kuitenkin selvittivät, että jos yhdistetään Netflix tietokanta ja IMDB tietokanta, anonymisoidut ihmiset voidaankin tunnistaa. Tässä tapauksessa tunnistaminen tapahtui arvostelun kellonajan perusteella. Vertaamalla tuota kellonaikaa IMDB tietokantaan pystyi yksittäiset käyttäjät tunnistamaan.

Suomessakin rekisteriselosteissa ja tietosuoja koskevissa pykälissä puhutaan rekisteritiedon käyttämisestä anonymisoituna. Rekisterinpitäjän on lähes mahdotonta tietää muihin rekistereihin tallennetuista tiedoista. Onko rekisteri anonymisoitu, jos sen data voidaan toiseen rekisteriin yhdistelemällä “deanonymisoida”? Tarvitseeko rekisterinpitäjän olla tietoinen joka ikisestä rekisteristä ja sen tiedoista vai riittääkö että anonymisointi tehdään vain omalle datalle? Näyttäisi, että nämä ongelmat saattavat estää monet crowdsourcing hankkeet.

Mitä ratkaisuja ongelmaan voisi olla?

-Rekisterin pitäjä voisi pitää kiinni datasetistä, mutta antaa queryvastauksia kilpailijoille. Näin voitaisi edes avustavasti varmistaa, että siitä ei voi yksilöidä henkilöä. Tämä vaikeuttaisi varmasti kilpailijoiden työtä verrattuna ensimmäiseen kierrokseen eikä välttämättä takaisi täydellisesti tietosuojaa.

-Rekisterinpitäjä voisi kerätä käyttäjiltään suostumuksen tutkimuskäyttöön. Tällöin myös tietosuojaongelmat voitaisiin sopimusteitse välttää. Suostumus olisi voinut olla myös jo alkuperäisessä käyttöehtosopimuksessa. Ongelmaksi tulee tosin erilaiset erityislait kuten Video privacy protection act jolla on muuten erittäin mielenkiintoiset taustat.

http://en.wikipedia.org/wiki/Video_Privacy_Protection_Act

http://en.wikipedia.org/wiki/Robert_Bork_Supreme_Court_nomination

Lisää tietosuojaa ja yksityisyyttä käsitteleviä artikkeleitamme löydät täältä: Tietosuoja ja yksityisyys.