tisdag 29 juli 2008

Dataanalys och terrorism...

(SvD)

Uppdatering: Debatten om FRA-lagen har blivit alldeles för fixerad kring olika personer, vi kommer bort från saken, det är bekymmersamt. Det handlar mer om ja- och nejsägare än om huvudproblemet, lagen i sin nuvarande utformning.

Det verkar också som om Bloggsordinerna fått fäste på olika bloggar, anonyma företrädare för FRA-lagen som skriver lite här och där. Man får ingen respekt av att vara anonym, vill man få genomslag måste man stå upp för det man har att säga.

Jag kände att det var dags för en ny vinkel på det här med dataanalyser och FRA. Det har varit väldigt personfixerat på sistone. Men så har också mycket hänt och det slog mig att alla som läser om FRA-lagen kanske inte har samma kunskaper som många av oss tar för givna. För det är FRA-lagen det handlar om. Jag läste en artikel skriven av Bruce Schneier och blev inspirerad.

I november 2002 lanserades i USA nyheten om hur myndigheterna startade ett grandiost dataanalyssystem (Total Information Awareness, TIA) som hade till uppgift att suga upp så mycket information som var möjligt om allt och alla. Det blev ett himla liv och projeketet lades ner i september året därpå, medlen drogs in och kontoren stängdes. Dock tycks verksamheten fortsatt på Försvarsdepartementet. Är det ett sådant dataanalysverktyg som FRA ska använda?

Budgetdepartementet kunde i ett dokument lista 122 olika federala myndigheter som gjorde dataanlyser av register som innehåller människors personliga data för att undersöka om det fanns mönster som kunde leda till terrorister. Ungefär som FRA fast värre... Här talar vi om hopslagning av många register och vad säger att det inte kan bli så även här i Sverige. Tänk er sjukvårdsregister, CSN, socialregister och FRAs massavlyssning över vår digitala trafik. Mycket vill ha mer. Kreativiteten är stor för den som gillar datanalys.


Den här typen av omfattande system kräver förstås viss avvägning, det har alltid en kostnad menar Schneier:

"Security is always a trade-off, and for a system to be worthwhile, the advantages have to be greater than the disadvantages. A national security data-mining program is going to find some percentage of real attacks and some percentage of false alarms. If the benefits of finding and stopping those attacks outweigh the cost -- in money, liberties, etc. -- then the system is a good one. If not, you'd be better off spending that capital elsewhere." (Bruce Schneier i Wired)

Står FRA-lagens genomförande i proportion till den kostnad det innebär för vår personliga integritet? Kloke Peter J Olsson sa i en privat konversation att det verkligen hade varit något för Sverige att satsa på, att bli vad Schweiz är för bankverksamheten, fast för skyddandet av den personliga integriteteten. Är inte det en god tanke så säg?

"Data mining works best when you're searching for a well-defined profile, a reasonable number of attacks per year and a low cost of false alarms. Credit-card fraud is one of data mining's success stories: all credit-card companies mine their transaction databases for data for spending patterns that indicate a stolen card." (ibid)

I Sverige talar man om att söka igenom (för det är det man måste göra för att kunna se och avgöra vad meddelandena, samtalen handlar om, massavlyssning enligt oss som är emot FRA-lagen i sin nuvarande utformning. Maskin eller människa spelar ingen roll, innehållet måste studeras) i princip allt för att hitta något att samla in. FRAs sökbegrepp är ingenting annat än analys av data. Schneier talar om kreditkortsföretag som är ett typiskt avdelat område. Inom kreditkortsbranschen finns det mönster som exempelvis köpbeteende som är hyfsat träffsäkra så där fungerar dataanalys ganska bra för att fånga upp stulna kreditkort när de används. Men att söka efter terrorister är något helt annat menar han. Här finns inga väldefinierade beteenden eller profiler att luta sig emot.

"Terrorist plots are different. There is no well-defined profile and attacks are very rare. Taken together, these facts mean that data-mining systems won't uncover any terrorist plots until they are very accurate, and that even very accurate systems will be so flooded with false alarms that they will be useless." (ibid)

Alla dataanalysverktyg ger träffar och de kan vara både falska och positiva. En falsk träff har inget värde för man träffar på terrorist som inte är terrorist. En falsk träff kan vara fullständigt fatal för den oskyldigt utpekade, med allt vad det innebär av polishämtning och liknande. Vad ska grannarna tro, din fru, dina barn?

Genom att söka igenom "allt" kommer man att få så många falskträffar att det blir överflöd av dem vilket gör att man därmed kan missa de riktigt fula fiskarna, alltså terroristerna, som vad jag förstått är det som FRA ska finna genom att gå igenom hela svenska folkets digitala kommunikation. Då kan man undra, står vinsten av att finna ett fåtal terrorister i proportion till att vi alla ska få vår privata kommunikation silad genom ett enormt dataanalyssystem.?Det handlar om att söka efter nålar i en höstack säger Schneier och ger följande sifferexempel som kan vara av intresse.

"There are 900 million credit cards in circulation in the United States. According to the FTC September 2003 Identity Theft Survey Report, about 1 percent (10 million) cards are stolen and fraudulently used each year.

When it comes to terrorism, however, trillions of connections exist between people and events -- things that the data-mining system will have to "look at" -- and very few plots. This rarity even accurate identification systems useless" (ibid)

Finns det inte anledning att fundera över varför inte polisen sköter spaningen efter terrorister? De verkar klara det utan att totalscanna allt som kommer i deras väg. När man pratar om att rädda liv som det görs i FRA-debatten skulle man då inte kunna använda de här pengarna till att rädda liv inom sjukvården till exempel eller i trafiken? Vad sägs om att sälja superdatorn och köpa ett litet sjukhus för pengarna. Skulle inte det rädda fler liv?

I originalartikeln finns räkneexempel Läs den här - tack till bloggen Inte så politiskt korrekt som hänvisar till denna intressanta kunskap. Det finns också mer att fundera kring temat - "jag har ingenting att dölja", en läsvärd artikel. Den handlar om definitionen av privatliv och att privatlivets helgd inte på något sätt står i konflikt med det allmännas intressen utan snarare är en förutsättning för ett fungerande samhälle. Vi låter varandra vara ifred. En av grundvalarna i ett fungerande samhälle - att man inte tränger sig på.

Sen kan man också fundera lite över denna minst sagt tänkvärda text. They Thought They Were Free , de många små steg som vart i sig kanske inte kändes så farliga men som så småningom ledde till fullständig katastrof.

Jan Kallberg har också räknat.

(intressant)

Läs även andra bloggares åsikter om , , , , , ,

13 kommentarer:

Anonym sa...

Ja, FRA-chefen påstår i tidningarna att FRA genom sin verksamhet faktiskt har räddat en person från att bli mördad i Sverige.

Jan Kallberg räknade litet och jämförde med Polisen:

"Polisen idag förhindrar säkert 200 mord genom sin bara existens - det gör att Polisen är 200 ggr mer effektiv eller att det krävs 140,000 FRA anställda för att få samma effekt"

http://kallberg.blogs.com/

Så visst tål det att diskutera var och hur våra begränsade resurser ska satsas.

Men som Jan Guillou skrev:

"I praktiken existerar ingen kontroll av våra spionorganisationer. Politikerna tycker att det är oartigt att störa känsliga spionorganisationer med sådana frågor"

http://www.idg.se/2.1085/1.171592

***
**
*

Lennart Nilsson sa...

Anledningen till att det mha data mining går att spåra människor som håller på med t.ex. kreditkortsbedrägerier eller penningstvätt är att det är en typ av beteende som kräver en metod. De som håller på med detta har oftast lärt sig hur man gör från någon annan och använder sedan kunskapen för att om och om igen göra samma sak. Analysen fokuserar också på själva handlingen inte på bakgrundsvariabler som ålder, kön, etnicitet osv. Ingenting av detta går att tillämpa på terrorister och i synnerhet inte på självmordsbombare.
Där man effektivt lyckats krossa terrororganisationer har det handlat om att bl.a. infiltrera dessa och "äta upp dem inifrån". USAs omvittnat stora problem i kampen mot terrorismen har varit att man nästan enbart satsat på dyra tekniska övervakningssystem och alldeles för lite på männen och kvinnorna ute i busken.

berinder sa...

Otroligt välskriven artikel, i mitt tycke ett av dom bättre inläggen i debatten! Av den lilla del av den stora bloggosfären jag hinner se iaf.

Jag jobbar själv, och har skrivit till en conference om just data mining. Min bedömning är att felmarignalen i sådana här verktyg och sökningar är större än den mängd man söker. Alltså att man skulle få långt större andel falska positiver och falska negativer än sanna positiver.

Detta verkar ju också vara fallet med tanke på det läckta dokumentets information som ju knappast kan säga innehålla nått av värde ang. terrorism.

Anonym sa...

Ett vasst sätt att lösa problemet med Base Rate Fallacy för de som prompt vill massavlyssna alla är ju att bredda urvalet man söker efter, dvs betrakta fler människor som "terrorister". Den utvecklingen verkar vara på gång, se USA:s lista med fler än en miljon namn på flygpassagerare som ska ringa i varningsklockor.

Det är en oroväckande utveckling, men det är ett sätt att motivera övergreppen som kan komma att användas. Vaksamhet är på sin plats.

Thomas Hallgren sa...

Det där med att kreditkortsföretagen gör datamining för att upptäcka stulna kort är ett lysande exempel på hur sånt här fungerar.

Jag bodde i USA under ett antal år. Varje gång jag åkte hem till Sverige så slutade mitt kreditkort att fungera. Kort som används i Europa måste ju vara stulna, eller hur? Det var i varje fall den förklaring jag fick varje gång. Ja, de kallade det för "suspicious patterns", men ändå...

berinder sa...

Tror det var MasterCards tekniske chef som sa att "Vi kan se på förändrade mönster att ett par kommer skiljas inom ett halvår." eller nått i den stilen.

Dom har blivit mer finkänsliga dom där filtrena, oftast neurala nätverk, idag än vad dom var. Plus att bankerna här i Sverige iaf verkar ringa mina kollegor innan dom stänger av deras kort när dom är till Asien...

Thomas Hallgren sa...

Jo, det här var ju ett par år sedan så utvecklingen har säkert gått framåt. Dessutom har man ju en väldigt konkret mängd data att analysera, ett faktum som borgar för att man faktiskt kan uppnå en viss precision. En precision som jag med all bestämdhet hävdar att man inte kan uppnå när man trålar hela Internet.

FRA far med osanning när de hävdar att deras förfinade filter med precision kommer att hitta de diffust defnierade hot mot rikets säkerhet som det talas om i lagen. Sedan gömmer de sig bakom hemligstämpeln när någon frågar hur i det ska gå till.

Neurala nätverk ja. Skynet kommer snart ;-)

berinder sa...

Näe, att uppnå den precision dom hävdar är omöjligt tror jag också. Jag tycker dock inte ens att frågan ligger så långt in: Så fort analysen görs så har brevhemligheten brutits och integriteten är kränkt. Sen om det börjar blinka en lampa hemma hos FRA eller inte, det är ointressant.

Anonym sa...

I samband med TIA-debatten så framkom i fackpressen att det är svårt att förutse ett angrepp genom massavlyssning men att man efter angreppet mha lagrat data har lättare kan spåra det till en gärningsman och få en lista på dennes medbrottslingar. För att verksamheten skall ge någon form av säkerhet måste det alltså också finnas något slags tänder som kan eliminera det utpekade hotet för att det förhindra nästa angrepp.

Hur FRA-lagsdatat skall användas kan vi bara gissa men det skulle förvåna mig oerhört om det inte kopierades över till NSA.

Anonym sa...

Ett vasst sätt att lösa problemet med Base Rate Fallacy för de som prompt vill massavlyssna alla är ju att bredda urvalet man söker efter, dvs betrakta fler människor som "terrorister".
Jag är säker på att det redan används, det är ganska vanligt att motivera ett säkerhetssystem med att man stoppar 1000 intrångsförsök per månad. Och eftersom man stoppar dem så går det inte att visa att alla var falska negativ, någon kunde ju vara riktig. De personer man för bort från dessa tåg blir säkert statistik som motiverar systemet: Schneier on Security Taking Pictures from a Train

Anonym sa...

En intressant paralell till detta med data mining (som ju för övrigt är både ett intressant och användbart verktyg inom de allra flesta områden förutom just underrättelsetjänst) är ryktena att "varningar" om 11:e septemberattacken snappades upp av amerikanernas echelonnätverk men aldrig ledde till någon åtgärd. Detta brukar ibland framföras som ett bevis på att idén fungerar (men att genomförandet i detta fall inte var perfekt). Vad man då missar är att det är otroligt enkelt att i efterhand inse att just denna information var relevant. Före attacken är det bara en i mängden av tämligen alldagliga data om en enorm massa personer, den pusselbit man behöver för att verkligen skilja ut dylikt och tolka informationen som plnerandet av en terrorattack är väl just att det är terrorister som kommunicerar. Och det vet man ju bara säkert då det är för sent.

Anonym sa...

Enligt CBS 60 Minutes uppfattades information om några av 9/11-deltagarna via konventionell underrättelsetjänst (via, om jag minns rätt, ett sammarbet med Malaysias och Indonesiens säkerhetspolis). Informatione blev dock liggande oöversatta beroende på inre stridigheter inom USA säkerhetstjänster. Om de översatts i tid hade personerna med mycket stor sannolikhet stoppats. Samma sak med 20:e 9/11-deltagaren som man inte orkade utreda i tid. I verkligheten gjorde alltså den falska säkerheten och/eller för hög tro på Echelon att man missade det verkliga hoten.

Anonym sa...

Det gamla kråkan tar upp är också ett känt problem egentligen, vilket rör övervakningskameror, eller ja mer eller mindre generell övervakning.

England som tydligen har flest övervakningskameror har nog också flest kritiker till övervakningskameror. Men i vilket fall som helst så kom dom ju fram till att förvisso minskar problemen där övervakning sker, men problemen går inte /dev/null vägen, utan bara pressas ut i periferin, dvs till områden som ligger utanför de områden som övervakas. Men de problem som trots allt fortsätter i övervakade områden, är kamerorna till hjälp efter att brott begåtts. (Ska man analysera något av hur effektiva kamerorna är för att klara upp brott, så tordes man olikt Home Office peka på att shit pomfritt vad brott begås framför i alla övervakade områden i alla fall.)

Personligen är jag övertygad om att det är detta förhållande som lett till spiraleffekten att England nu tydligen har ca 4,2 miljoner övervakningskameror: dom kan helt enkelt inte få nog nu. Ju mer problemen pressas in i de allt färre oövervakade områden, destå högre destillation av problem upptstår i dessa oövervakade områden, så vad göra annat än att sätta upp än fler kameror. Tills den dag då det sitter kameror mest överallt, och "problemen" helt enkelt skiter i att kamerorna existerar, ty "problemen" anpassar sig, precis som det juridiska försvaret.

Inte helt olikt det som sker med DNA bevisningen i USA mer och mer, där tiden verkar vara räknad vad gäller tron på att "bara för att DNA, därför skyldig".


---

Vad gäller Data mining, eller snarare, i underrättelsetjänst varianten generell "automatiserad" analysering av insamlat data för att få fram någonting konkret användbart, är rent ut sagt idiotiskt, fortfarande. (Vem vet kanske om 10-20 år :-()

Problemen är att mönster antingen är något som upprepas eller är förutbestämt. Fast oftast är ju det som är förutbestämt just på sånt som har upprepats. Ett mönster, i detta sammanhang, är t ex din dagliga rutin, det du gör varje dag, vid ungefär samma tidpunkt, dag ut och dag in, eller sånt du gör bara specifika dagar, fast i stort sett i samma ordning. Har man detta mönster klart för sig, så låter man röda flaggor resas när detta, eller dessa, mönster bryts, ty då blir det ju potentiellt sannolikt att saker och ting inte står rätt till, eller hur?

I specifika, individuella, fall så kan ju det stämma, speciellt om det mönster man utgår ifrån är sammanställt av just den specifika individen. Men vad händer när det mönster man applicerar är förutbestämt (dvs mönster baserat på någon/ra helt andra [typ en kontrollgrupp som utgjort det normala, eller onormala]), och därför mer eller mindre generellt?

"Data mining" applicerat selektivt, som t ex Kreditkortsföretagen, är en hög funktionsgrad, en hög effektivitet helt enkelt, men ändå gör dom fel "mest hela tiden" utifrån den oskyldiga sett att se.

Ex: Svensson spenderar 500 kr varje Fredag på systemet, storhandlar för 2000 kr varannan Tisdag, käkar på den och den restaurangen varje Torsdag efter kl 17, alla andra utgifter är "små" vilket bestämts till "normalt", etc, etc. Men kortet spärras när han en vecka köper två datorer, tv-spelskonsol, platt-tv, en fjärde projektor (på 8 år), och beställde en "lyx" resa för två, bara för att det frångick det normala i spenderandet. Dessa datorsystemen är så pass fyrkantiga, att dom inte tar hänsyn till att individer tokspenderar titt som tätt av helt individuell orsaker, bonuslön, spelvinster, sparande, osv.

Det är ju lite likt ovanstående problematik som t ex terrorism forskare oroar sig för. Dom kan ju sitta och köra "passiv" forskning i flera år för att sen tillsynes ur det blå gå över till "aktiv" forskning och åka till "terrorlandet" och vara social bland "högst potentiella sannolika terrorspöken". Och datorsystemen skulle flagga individ som haft ett onormalt intresse för terrorism och nu åkt till plats. (lite väl förenklat, men men.)

---

Eftersom varje enskilt system har så pass "hög" effektivitet, så måste ju allt bli alldeles så där rosenrött om man kopplar samman alla specifika och selektiva system i ett enda stort system, för då borde ju en massa fel inte kunna uppstå?

Det verka som det är så USA/NSA resonerar idag, med tanke på allt dom åstadkommit sen 9-11. Det har förvisso skapat nya problem, samtidigt som samma problem fortfarande existerar. Vilket till viss del bevisas av den sk "No-Fly list", som inte blev bättre, mindre felaktigt, trots att man skapade ett system som "administrerade" alla andra system.

Men om dom bara hade än mer information att tillgå (vilket dom nu kommer att få), så måste ju allt bara lösa sig ... josåruatt, eller hur?

Problematiken går samma väg som Englands anal-fixering vid övervakningskameror har lett till ... ännu mer övervakning, än mer kontroll, som aldrig löser problemen, men som alltid veltar över det som skiten ska skydda.


Kanske inte helt olikt hur Svensk psykiatri fungerar, ändå ... diagnoserna är så abstrakta att alla är potentiellt sjuka.

---

sry, lider tydligen av skrivklåda, idag. Måste vara värmen. :-()