Co je zodpovědné strojové učení? (Preview)

V tomto článku se dozvíte, co je zodpovědné strojové učení (ML) a jak ho dát do praxe s Azure Machine Learning.

Principy zodpovědného strojového učení

Během vývoje a používání systémů AI musí být základem důvěryhodnosti. Důvěřujte platformě, procesu a modelům. Zodpovědné strojové učení v Microsoftu zahrnuje následující hodnoty a principy:

  • Principy modelů strojového učení
    • Interpretace a vysvětlení chování modelu
    • Posouzení a zmírnění nekalosti modelu
  • Ochrana lidí a jejich dat
    • Ochrana před odhalením dat s rozdílovou ochranou osobních údajů
    • Práce se šifrovaným daty pomocí homomorfního šifrování
  • Řízení end-to-end procesu strojového učení
    • Dokumentování životního cyklu strojového učení pomocí datových listů

Zodpovědné ML pilíře – interpretovatelnost, rozdílová ochrana osobních údajů, homomorfní šifrování, záznam pro audit – Azure Machine Learning

Vzhledem k tomu, že umělá inteligence a autonomní systémy se více integrují do prostředků společnosti, je důležité proaktivně vynaložit úsilí na předvídání a zmírnění nezamýšlených důsledků těchto technologií.

Interpretace a vysvětlení chování modelu

Obtížné vysvětlit nebo neprůhledné systémy mohou být problematické, protože z důvodu rozhodování o tom, proč systémy dělají určitá rozhodnutí, je obtížné pro zúčastněné strany, jako jsou vývojáři systémů, regulační orgány, uživatelé a osoby s rozhodovací pravomocí ve společnosti. Některé systémy AI jsou lépe vysvětlitelné než jiné a někdy existuje kompromis mezi systémem s vyšší přesností a systémem, který je lépe vysvětlitelný.

K vytváření interpretovatelných systémů AI použijte InterpretML, open source balíček sestavený Microsoftem. Balíček InterpretML podporuje širokou škálu technik interpretovatelnosti, jako jsou SHapley Additive exPlanations (SHAP), napodobování vysvětlujících a permutačních funkcí (PFI). InterpretML je možné použít uvnitř Azure Machine Learning k interpretacia vysvětlení modelů strojového učení, včetně modelů automatizovaného strojového učení.

Zmírnění ne fairness v modelech strojového učení

Vzhledem k tomu, že se systémy AI více zapojuje do každodenního rozhodování společnosti, je mimořádně důležité, aby tyto systémy dobře fungovaly při poskytování spravedlivého výsledku pro všechny.

Nekalost v systémech AI může mít za následek následující nezamýšlené důsledky:

  • Srážkové příležitosti, zdroje nebo informace od jednotlivců.
  • Upevňující předsudky a stereotypy.

Metriky neschycují ani reprezentují mnoho aspektů neschytivosti. Existují nástroje a postupy, které mohou zlepšit neschůdnost při návrhu a vývoji systémů AI.

Dva klíčové kroky při omezování nekalosti v systémech AI jsou posouzení a zmírnění rizik. Doporučujeme FairLearn, open source balíček, který dokáže posoudit a zmírnit potenciální nekalé systémy AI. Další informace o nesnáze a balíčku FairLearn najdete v článku o nesnáze ML článku.

Ochrana před odhalením dat s rozdílovou ochranou osobních údajů

Když se data používají k analýze, je důležité, aby data během svého používání zůstala soukromá a důvěrná. Rozdílová ochrana osobních údajů je sada systémů a postupů, které pomáhají udržovat data jednotlivců v bezpečí a soukromá.

V tradičních scénářích se nezpracovaná data ukládají do souborů a databází. Když uživatelé analyzují data, obvykle používají nezpracovaná data. To je obava, protože by to mohlo narušovat soukromí jednotlivce. Rozdílová ochrana osobních údajů se snaží tento problém vyřešit přidáním "šumu" nebo náhodnosti do dat, aby uživatelé nesnídili žádné jednotlivé datové body.

Implementace rozdílových privátních systémů je obtížná. SmartNoise je open source projekt, který obsahuje různé komponenty pro vytváření globálně rozdílových privátních systémů. Další informace o rozdílové ochraně osobních údajů a projektu SmartNoise najdete v článku Zachování ochrany osobních údajů v datech pomocí rozdílové ochrany osobních údajů a SmartNoise.

Práce na šifrovaných datech s homomorfním šifrováním

V tradičních cloudových úložišti a výpočetních řešeních musí mít cloud nešifrovaný přístup k zákaznickým datům, aby na tomto řešení bylo výpočetní. Tento přístup zpřístupňuje data operátorům cloudu. Ochrana osobních údajů v datech spoléhá na zásady řízení přístupu implementované cloudem a důvěryhodné zákazníkem.

Homomorfní šifrování umožňuje provádět výpočty na šifrovaných datech bez nutnosti přístupu k tajnému klíči (dešifrování). Výsledky výpočtů jsou zašifrované a může je odhalit pouze vlastník tajného klíče. Díky homomorfnímu šifrování nebudou mít operátoři cloudu nikdy nešifrovaný přístup k datům, která ukládají a využívají. Výpočty se provádějí přímo na šifrovaných datech. Ochrana osobních údajů v datech spoléhá na moderní kryptografii a vlastník dat řídí všechny informační verze. Další informace o homomorfním šifrování v Microsoftu najdete na webu Microsoft Research.

Pokud chcete začít s homomorfním šifrováním v Azure Machine Learning, použijte vazbu Pythonu šifrovaného odvozování pro Microsoft SEAL. Microsoft SEAL je open source homomorfní šifrovací knihovna, která umožňuje provádět sčítání a násobení na šifrovaných celých číslech nebo reálných číslech. Další informace o Microsoft SEAL najdete na Cetrum architektury Azure nebo na stránce projektu Microsoft Research.

V následující ukázce se dozvíte, jak nasaditšifrovanou webovou službu pro odvozování v Azure Machine Learning .

Dokumentování životního cyklu strojového učení pomocí datových listů

Dokumentování správných informací v procesu strojového učení je klíčem k přijímání zodpovědných rozhodnutí v každé fázi. Datové listy jsou způsobem, jak dokumentovat prostředky strojového učení, které se používají a vytvářejí v rámci životního cyklu strojového učení.

Modely se obvykle myslí jako "neprůhledné rámečky" a často o nich není málo informací. Vzhledem k tomu, že systémy strojového učení se stále více pervazivní a používají se k rozhodování, je použití datových listů krokem k vývoji zodpovědnějších systémů strojového učení.

Některé informace o modelu, které můžete chtít zdokumentovat jako součást datového listu:

  • Zamýšlené použití
  • Architektura modelu
  • Použitá trénovací data
  • Použitá data vyhodnocení
  • Metriky výkonu trénování modelu
  • Informace o neschůdnosti:

V následující ukázce se dozvíte, jak pomocí sady Azure Machine Learning SDK implementovat datové listy pro modely.

Další zdroje informací

  • Další informace najdete v tématu o osvědčených postupech v sadě nástrojů pro zodpovědné inovace.
  • Přečtěte si další informace o ML sady pokynů pro systémovou dokumentaci strojového učení.