Hvordan sikre personvernet ved bruk av kunstig intelligens i helsevesenet?
Amin Aminifar disputerer 20. 5. 2022 for ph.d.-graden ved Høgskulen på Vestlandet med avhandlinga "Privacy-preserving machine learning and data sharing in healthcare applications".
Kunstig intelligens (AI) og automatiserte beslutningsprosesser har potensial til å forbedre nøyaktigheten og effektiviteten i helsetjenesten. AI vist seg å kunne utkonkurrere menneskelige eksperter på visse områder, men bruken av AI og maskinlæring for automatisert beslutningstaking i helsevesenet gir visse utfordringer, blant annet knyttet til sikkerhet og personvern. Dette gjelder f.eks. tredje parts tilgang til enkeltpersoners medisinske opplysninger. Det er lagd retningslinjer, for eksempel Personvernforordningen (GDPR), for beskytte personvernet til pasienter som overvåkes ved bruk av AI og maskinlæring på dette området.
For å imøtekomme slike personvernhensyn, tar denne avhandlingen for seg to hovedretninger innen forskning på disse problemstillingene. I den ene hovedretningen utføres analysen på de publiserte/delte helseopplysningene. Derfor må databehandleren vurdere spesielle tiltak for å beskytte datasubjektenes personvern, for eksempel ved å forandre dataene før de publiseres. I denne avhandlingen foreslås dette løst via et anonymiseringsrammeverk, formulert som et optimaliseringsproblem, for datasett med både kategoriske og numeriske attributter. Det foreslåtte rammeverket er basert på gruppering av dataprøver ved å vurdere mangfoldsproblemet i anonymisering for å redusere risikoen for identitets- og attributt-koblingsangrep. Vår metode oppnår anonymitet ved å formulere og løse dette problemet som et begrenset optimaliseringsproblem, ved vurdere personvernmodellene k-anonymity, 1-diversity og t-closeness. Vi evaluerer rammeverket for populære, offentlig tilgjengelige strukturerte helsedata.
Den andre hovedretningen er å utføre dataanalyse uten å publisere helseopplysningene. I slike miljøer vurderer vi flere parter, som hver inneholder forskjellige deler av opplysningene. Målet er å analysere opplysningene fra disse partene uten direkte tilgang til dataregistreringsverdiene. I denne avhadlingen presenteres et skalerbart rammeverk for distribuert læring av personvern basert på teknikkene Extremely Randomized Trees (ERT) algoritmen og Secure Multiparty Computation (SMC). Vi bygger en maskinlæringsmodell basert på hele datasettet ved å analysere data lokalt og kombinere. Vi evaluerer den distribuerte implementeringen av teknikken vår og demonstrerer ytelsen til teknikken.
Oppsummert bidrar forskningen i denne avhandlingen til å kunne utnytte helseopplysninger for dataanalyse og automatisk beslutningstaking uten brudd på personvernet. Dette vil, på lang sikt, kunne bedre beslutningstaking innen helsesektoren, diagnostikk og behandling, til en rimelig pris.