Nepřátelské strojové učení

Nepřátelské strojové učení, anglicky Adversarial machine learning, je označuje jak útoky na algoritmy strojového učení, tak též, jak se proti takovým útokům bránit.[1] Jedná se o metodu strojového učení, jejímž cílem je oklamat modely strojového učení zadáním klamných vstupních údajů nebo vložení algoritmů do dané sítě.[2] Zahrnuje jak generování, tak detekci adverzních příkladů, což jsou vstupy speciálně vytvořené k oklamání klasifikátorů.[3] Takové útoky jsou prozkoumané například je klasifikace obrázků a detekce spamu či v ovládání hlasových asistentů.[4]

Většina technik strojového učení je obvykle navržena tak, aby fungovala na konkrétních sadách problémů, přičemž se předpokládá, že trénovací a testovací data jsou generována ze stejného statistického rozdělení (IID). Tento předpoklad je však často nebezpečně porušován v praktických aplikacích s vysokým rizikem, kde uživatelé mohou záměrně poskytovat vymyšlené údaje, které porušují statistický předpoklad.

Typy útoků editovat

Některé z nejběžnějších útoků v nepřátelském strojovém učení zahrnují únikové útoky,[5] útoky na otravu dat,[6] byzantské útoky[7] a extrakci modelu.[8]

Neuronové sítě editovat

Základní útok v prostředí neuronových sítí je metoda rychlého gradientního označení (FGSM).[9] Průzkum z května 2020 odhaluje skutečnost, že odborníci z praxe hlásí naléhavou potřebu lepší ochrany systémů strojového učení v průmyslových aplikacích.[10] Existují i další typy útoků, které lze volně popsat čtyřmi kategoriemi:[11]

  1. Útoky typu bílá skříňka (white box) jsou nejsnáze proveditelné, protože mají plnou znalost parametrů modelu. To znamená, že útočník má plnou znalost θ a může využít informace o gradientu k vytvoření nepřátelských příkladů. Jak jste již možná uhodli, takovou metodou je FGSM.
  2. Útoky typu černá skříňka (black box) jsou na druhou stranu podstatně obtížnější. V tomto případě útočník nemá informace o parametrech modelu, ani k nim nemá přístup ve fázi trénování. To znamená, že při určování škodlivých příkladů nelze použít žádné informace o gradientu. Model však buď vypisuje skóre důvěryhodnosti pro každou třídu, nebo ještě hůře, pouze předpovězené štítky.[12]
  3. Necílený útok mění intenzitu pixelu tak, aby se snížila důvěryhodnost původní třídy, dokud už nebude v predikčním vektoru největší. Nezajímá je, která třída by měla být predikována místo ní, ale jednoduše se snaží model oklamat.
  4. Cílené útoky jsou pokročilejší a snaží se narušit vstup směrem k definované cílové třídě y'. Jinými slovy, způsobí, že model chybně interpretuje vstup jako útočníkem požadovanou třídu.

Související články editovat

Reference editovat

V tomto článku byl použit překlad textu z článku Adversarial machine learning na anglické Wikipedii.

  1. [s.l.]: [s.n.] ISBN 978-3-030-29515-8. DOI 10.1007/978-3-030-29516-5_10. (anglicky) 
  2. Chybí název periodika! PMID 31597977. 
  3. BOESCH, Gaudenz. What Is Adversarial Machine Learning? Attack Methods in 2023. viso.ai [online]. 2023-01-01 [cit. 2023-08-23]. Dostupné online. (anglicky) 
  4. HUTSON, Matthew. AI can now defend itself against malicious messages hidden in speech. Nature. 2019-05-10. PMID: 32385365. Dostupné online [cit. 2023-08-23]. ISSN 1476-4687. DOI 10.1038/d41586-019-01510-1. PMID 32385365. 
  5. GOODFELLOW, Ian; MCDANIEL, Patrick; PAPERNOT, Nicolas. Making machine learning robust against adversarial inputs. Communications of the ACM. 25 June 2018, s. 56–66. ISSN 0001-0782. DOI 10.1145/3134599. (anglicky) 
  6. In: [s.l.]: [s.n.] Dostupné online. (anglicky)
  7. proceedings.neurips.cc. Dostupné online. arXiv 2008.00742. 
  8. In: [s.l.]: [s.n.] Dostupné online. ISBN 978-1-931971-32-4. (anglicky)
  9. Adversarial example using FGSM | TensorFlow Core. TensorFlow [online]. [cit. 2023-08-23]. Dostupné online. (anglicky) 
  10. [s.l.]: [s.n.] ISBN 978-1-7281-9346-5. DOI 10.1109/SPW50608.2020.00028. 
  11. HUBER, Lukas. Fooling Neural Networks with Adversarial Examples. Medium [online]. 2022-03-30 [cit. 2023-08-23]. Dostupné online. (anglicky) 
  12. Bhambri, Siddhant; Muku, Sumanyu; Tulasi, Avinash; Buduru, Arun Balaji (2019): A Survey of Black-Box Adversarial Attacks on Computer Vision Models