Nepřátelské strojové učení

Nepřátelské strojové učení, anglicky Adversarial machine learning, je označuje jak útoky na algoritmy strojového učení, tak též, jak se proti takovým útokům bránit.^[1] Jedná se o metodu strojového učení, jejímž cílem je oklamat modely strojového učení zadáním klamných vstupních údajů nebo vložení algoritmů do dané sítě.^[2] Zahrnuje jak generování, tak detekci adverzních příkladů, což jsou vstupy speciálně vytvořené k oklamání klasifikátorů.^[3] Takové útoky jsou prozkoumané například je klasifikace obrázků a detekce spamu či v ovládání hlasových asistentů.^[4]

Většina technik strojového učení je obvykle navržena tak, aby fungovala na konkrétních sadách problémů, přičemž se předpokládá, že trénovací a testovací data jsou generována ze stejného statistického rozdělení (IID). Tento předpoklad je však často nebezpečně porušován v praktických aplikacích s vysokým rizikem, kde uživatelé mohou záměrně poskytovat vymyšlené údaje, které porušují statistický předpoklad.

Typy útoků

Některé z nejběžnějších útoků v nepřátelském strojovém učení zahrnují únikové útoky,^[5] útoky na otravu dat,^[6] byzantské útoky^[7] a extrakci modelu.^[8]

Neuronové sítě

Základní útok v prostředí neuronových sítí je metoda rychlého gradientního označení (FGSM).^[9] Průzkum z května 2020 odhaluje skutečnost, že odborníci z praxe hlásí naléhavou potřebu lepší ochrany systémů strojového učení v průmyslových aplikacích.^[10] Existují i další typy útoků, které lze volně popsat čtyřmi kategoriemi:^[11]

Útoky typu bílá skříňka (white box) jsou nejsnáze proveditelné, protože mají plnou znalost parametrů modelu. To znamená, že útočník má plnou znalost θ a může využít informace o gradientu k vytvoření nepřátelských příkladů. Jak jste již možná uhodli, takovou metodou je FGSM.
Útoky typu černá skříňka (black box) jsou na druhou stranu podstatně obtížnější. V tomto případě útočník nemá informace o parametrech modelu, ani k nim nemá přístup ve fázi trénování. To znamená, že při určování škodlivých příkladů nelze použít žádné informace o gradientu. Model však buď vypisuje skóre důvěryhodnosti pro každou třídu, nebo ještě hůře, pouze předpovězené štítky.^[12]
Necílený útok mění intenzitu pixelu tak, aby se snížila důvěryhodnost původní třídy, dokud už nebude v predikčním vektoru největší. Nezajímá je, která třída by měla být predikována místo ní, ale jednoduše se snaží model oklamat.
Cílené útoky jsou pokročilejší a snaží se narušit vstup směrem k definované cílové třídě y'. Jinými slovy, způsobí, že model chybně interpretuje vstup jako útočníkem požadovanou třídu.

Související články

Reference

V tomto článku byl použit překlad textu z článku Adversarial machine learning na anglické Wikipedii.

↑ [s.l.]: [s.n.] ISBN 978-3-030-29515-8. DOI 10.1007/978-3-030-29516-5_10. (anglicky)
↑ Chybí název periodika! PMID 31597977.
↑ BOESCH, Gaudenz. What Is Adversarial Machine Learning? Attack Methods in 2023. viso.ai [online]. 2023-01-01 [cit. 2023-08-23]. Dostupné online. (anglicky)
↑ HUTSON, Matthew. AI can now defend itself against malicious messages hidden in speech. Nature. 2019-05-10. PMID: 32385365. Dostupné online [cit. 2023-08-23]. ISSN 1476-4687. DOI 10.1038/d41586-019-01510-1. PMID 32385365.
↑ GOODFELLOW, Ian; MCDANIEL, Patrick; PAPERNOT, Nicolas. Making machine learning robust against adversarial inputs. Communications of the ACM. 25 June 2018, s. 56–66. ISSN 0001-0782. DOI 10.1145/3134599. (anglicky)
↑ In: [s.l.]: [s.n.] Dostupné online. (anglicky)
↑ proceedings.neurips.cc. Dostupné online. arXiv 2008.00742.
↑ In: [s.l.]: [s.n.] Dostupné online. ISBN 978-1-931971-32-4. (anglicky)
↑ Adversarial example using FGSM | TensorFlow Core. TensorFlow [online]. [cit. 2023-08-23]. Dostupné online. (anglicky)
↑ [s.l.]: [s.n.] ISBN 978-1-7281-9346-5. DOI 10.1109/SPW50608.2020.00028.
↑ HUBER, Lukas. Fooling Neural Networks with Adversarial Examples. Medium [online]. 2022-03-30 [cit. 2023-08-23]. Dostupné online. (anglicky)
↑ Bhambri, Siddhant; Muku, Sumanyu; Tulasi, Avinash; Buduru, Arun Balaji (2019): A Survey of Black-Box Adversarial Attacks on Computer Vision Models

[1] [s.l.]: [s.n.] ISBN 978-3-030-29515-8. DOI 10.1007/978-3-030-29516-5_10. (anglicky)

[nature_why2-2] Chybí název periodika! PMID 31597977.

[3] BOESCH, Gaudenz. What Is Adversarial Machine Learning? Attack Methods in 2023. viso.ai [online]. 2023-01-01 [cit. 2023-08-23]. Dostupné online. (anglicky)

[4] HUTSON, Matthew. AI can now defend itself against malicious messages hidden in speech. Nature. 2019-05-10. PMID: 32385365. Dostupné online [cit. 2023-08-23]. ISSN 1476-4687. DOI 10.1038/d41586-019-01510-1. PMID 32385365.

[GoodfellowMcDaniel20182-5] GOODFELLOW, Ian; MCDANIEL, Patrick; PAPERNOT, Nicolas. Making machine learning robust against adversarial inputs. Communications of the ACM. 25 June 2018, s. 56–66. ISSN 0001-0782. DOI 10.1145/3134599. (anglicky)

[6] In: [s.l.]: [s.n.] Dostupné online. (anglicky)

[:13-7] proceedings.neurips.cc. Dostupné online. arXiv 2008.00742.

[8] In: [s.l.]: [s.n.] Dostupné online. ISBN 978-1-931971-32-4. (anglicky)

[9] Adversarial example using FGSM | TensorFlow Core. TensorFlow [online]. [cit. 2023-08-23]. Dostupné online. (anglicky)

[:1-10] [s.l.]: [s.n.] ISBN 978-1-7281-9346-5. DOI 10.1109/SPW50608.2020.00028.

[11] HUBER, Lukas. Fooling Neural Networks with Adversarial Examples. Medium [online]. 2022-03-30 [cit. 2023-08-23]. Dostupné online. (anglicky)

[12] Bhambri, Siddhant; Muku, Sumanyu; Tulasi, Avinash; Buduru, Arun Balaji (2019): A Survey of Black-Box Adversarial Attacks on Computer Vision Models

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]