Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...

Pagina creata da Nicolò Pappalardo
 
CONTINUA A LEGGERE
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Atelier
          Evoluzione delle Advanced Persistent Threat
   nell'era del Machine Learning e dell'Intelligenza Artificiale

         Andrea Zapparoli Manzoni - Direttivo CLUSIT
      Fabrizio Cassoni - Principal Systems Engineer, Fortinet

28 maggio 2020 orario 11.00-12.00 - StreamingEdition

        #securitysummit #academy #streamingedition
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Andrea Zapparoli Manzoni     Slide di sfondo
                             Testo editabile
Consiglio Direttivo Clusit

                                    2
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Fabrizio Cassoni
                       Slide di sfondo
                       Testo editabile
Principal Systems Engineer
Fortinet Italia

                              3
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Il Custode della 4a Rivoluzione Industriale
The 4th Industrial Revolution is characterised
by a fusion of technologies that is blurring
the lines between the physical, digital and
biological spheres. In a Hyperconnected
                                     Slide di sfondo
world, cyber resilience is both a potential risk
and an enabler.                      Testo editabile

Professor Klaus Schwab,
Founder and Executive Chairman of the
World Economic Forum

                                           4           Source: World Economic Forum
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
L’innovazione Digitale accelerata dal Covid-19

L’Innovazione Digitale sta rivoluzionando
in positivo tutti i settori industriali ma sta
anche generando un aumento dei rischi       diRetail
                                         Slide sfondo         Healthcare    Finance     Manufacturing
in particolare relativi alle minacce cyber
                                      Testo editabile
                                                 Industrial   Higher Edu    Insurance    Consumer
L'emergenza sanitaria del Covid-19 ha
contribuito ad una forte accelerazione di
questo processo in ambito residenziale e         Transport     Utilities   Government     Oil & Gas
ci ha proiettati in modo veloce e caotico
in una condizione di forte dipendenza
dall'infrastruttura digitale.                    Science        Auto          CSP           K12

                                                    5
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Smart Working o Telelavoro?
L’emergenza del Covid-19 ha creato un’esigenza di
provisioning frenetica del servizio di VPN (Virtual
Private Network), per poter garantire ai dipendenti di
lavorare in Smart-Working da casa cercando di
                                        Slide di sfondo
riprodurre lo stesso ambiente di lavoro che avevano in
ufficio. In questa fase naturalmente è stata privilegiata
                                        Testo editabile
la possibilità di erogare il servizio al maggior numero di
persone e nel minor tempo possibile, dando la
possibilità di entrare in VPN anche con dispositivi
personali e senza autenticazione a due fattori,
accettando quindi un margine di rischio di potenziale
compromissione degli endpoint e delle utenze.
Un accesso in VPN è una porta che si apre dal mondo
esterno verso i sistemi aziendali, per questo è
necessario applicare tutte le dovute precauzioni.

                                                     6
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Cosa è successo in Italia?

                                              Slide di sfondo
                                              Testo editabile

  Aumento di attività di phishing e codice eseguibile nei documenti office (macro, powershell)
        Source: Statistiche FortiGuard Labs
                                                     7
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Cyber Risk: Spear Phishing

                   Turns on lock
                        Slide di sfondo
                   screen with their
                   password
                        Testo editabile

I cyber criminali stanno approfittando dell'emergenza
sanitaria per fare cassa…

                                       8
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Cyber Risk: Covid Lock
                                                       Monitoring delle epidemie
                                                       in tempo reale
                               Turns on lock
                               screen with their
                               password           Attacco di tipo Screen-lock
                                      Slide di sfondo
                                      Testo editabile
                                                  Sistema target: Android
        Grants permission to
        access your settings

                                                   9
Atelier Evoluzione delle Advanced Persistent Threat nell'era del Machine Learning e dell'Intelligenza Artificiale Andrea Zapparoli Manzoni ...
Minacce Informatiche….Chi..Cosa..Perché?

                               Slide di sfondo
                               Testo editabile

LOW                                        Threat Level                                                  HIGH

                 Hacker per
  Errore Umano                 Minacce Interne            Hacktivists   Crimine Organizzato   Enti Governativi
                 Opportunità

                                                 10
Timeline di un attacco informatico
 Goal: Establish access to a corporate computer

           Locate email                                                 Send a spoofed email       Key obtained from
            addresses                                                        with PDF                C&C server

                                                    Slide di sfondo
                                                        T I M E
                                                    Testo editabile
                                                                   Create an infected          Victim clicks           Files gradually
                                                                         PDF                   attachment                 encrypted

                                                                                                  Cryptolocker
                                                                                                    installed

 Alcuni passaggi della kill-chain richiedono ore o addirittura settimane, mentre altri
 richiedono solo pochi secondi

         Recon   Weapon   Delivery   Exploit   Install   C&C   Act On

                                                                    11
Le minacce avanzate evolvono e si adattano
Uno dei fattori trainanti continua ad essere il social engineering

                                                                                                                                                       6B+
                                                                                                                   5B                       5B+
                                                                                                                               4.7B
                                                            Slide di sfondo
                                                            Testo editabile
                                                                                                     39M*                      826M                    1B+
                                                                                                                                           604M
                                                            67M          147M          259M                      3.2M
                   4M          4.37M*        7.47M

                    Cumulative Records Stolen                                                                       Annual # of Ransomware Attacks

   Significant
       Threat
    Incidents
                  Melissa      Code Red      Slammer       Sasser         Zeus        Conficker      Stuxnet   Cryptolocker   Wannacry    VPNFilter   Swarmbot

                 1990–1999    2000–2001     2002–2003     2004–2005    2006–2007      2008–2009   20010–2011   2012–2014      2015–2017   2018–2019    2020+

            *Many undisclosed | Record Stolen Reference—Breach Level Index | Ransomware stats—Statista

                                                                                 12
Evoluzione della Rilevazione dei Malware
    Pro e Contro
◼   1a Gen – Basata su Signature
     ◆                           Slide di sfondo
         Ritardo nella rilevazione / intenso consume di risorse
         DB di Analisi esteso
◼
     ◆
                                 Testo editabile
    2a Gen – Prevenzione delle Minacce Avanzate/Sandboxing
     ◆   Mandatoria quando il Malware si evolve
     ◆   Analisi limitata ad un singolo host, dipendente dal Sistema operativo/Software
     ◆   Tempo di rilevazione
◼   3a Gen - AI based
     ◆   Il Machine Learning aiuta ad identificare il malware
     ◆   Riduce il tempo di rilevazione (da minuti ad anche meno di un secondo)
     ◆   Riduce I falsi positivi
     ◆   Identifica lo scenario di attacco e la storia che c’è dietro

                                                   13
Le soluzioni APT/Zero day evolvono e si adattano
La Sandbox è una tecnologia ancora valida nell’era dell’AI?

                                Slide di sfondo
                                Testo editabile

  Per rispondere facciamo un approfondimento dei principi dell’AI e del Machine Learning

                                                14
Cosa si intende per AI?   Intelligenza artificiale
                          La capacità di una macchina di imitare un
                          comportamento umano intelligente.
                          Un computer (e i suoi sistemi) sviluppano la capacità
                          di eseguire con successo compiti complessi che di
                          solito richiedono intelligenza umana.
                   Slide di sfondo
                   Testo editabile

                                                 Artificial             Deep
                            Machine
                                                  Neural               Neural
                            Learning
                                                 Networks             Networks

                           Modelli di apprendimento sofisticati

                           15
Quasi 100 anni di Intelligenza Artificiale
                                                             AI applied                           FORTINET
                     AI research                                              Deep learning
                                                             to data                              started product                               Elon Musk
                     formally           The First AI         mining,          is achieved         research in AI                                calls for           FORTINET
Turing, Kleene       founded as a       Winter               medical          using faster        technology, first        2,700+ AI            the                 FortiAI
and Church           discipline at      Difficulty           diagnosis        computing,          iteration of             projects in          regulation          launched
propose machine
learning solution
                     Dartmouth
                     College
                                        resulted in
                                        funding cuts in
                                                             with
                                                                  Slide di sfondo
                                                             increased
                                                                              large data
                                                                              structures
                                                                                                  machine
                                                                                                  learning in
                                                                                                                           place at
                                                                                                                           Google
                                                                                                                                                of AI
                                                                                                                                                before we
                                                                                                                                                                    as a
                                                                                                                                                                    product
                                        US and Britain       CPU power                            Cybersecurity                                 hit 100

          1943                1960s                1980s          Testo
                                                                      1997editabile
                                                                                2011                            2013                     2016
                                                                                                                                                years
                                                                                                                                                             2018

1930s                 1956               1974                1990s              2003                 2012                  2015                   2017                 2020

      McCullouch and          AI research      Proliferation of      IBM Deep Blue     IBM Watson             IBM Watson             FORTINET                FORTINET
      Pitts create formal     heavily funded   Expert Systems        beats Grand       defeats Jeopardy      application for         AutoCPRL –              introduce AI in
      design of Turing’s      by the U. S.     Lisp vs. PC           Master            champions Brad         management             utilsing ML for         Web application
      ‘artificial neurons’    military                               Kasparov in       Rutter and Ken       decisions of lung        malware                 Security and
                                                                                       Jennings
                                                                     chess                                  cancer treatment         detection ie            Sandboxing
                                                                                                                                     machine
                                                                                                                                     generated CRPL
                                                                                                                      Use of AI in CyberSecurity

                                                                                16
Modelli di Apprendimento

                        Apprendimento SUPERVISIONATO

                  Slide di sfondo
                  Testo editabile
                      Apprendimento NON SUPERVISIONATO

                         Apprendimento RINFORZATO

                         17
Apprendimento Supervisionato
                             Apprendimento Supervisionato
                             Training utilizzando dati etichettati noti (ad
                             es. Riconoscimento ottico dei caratteri)
                 Slide di sfondo
                           • Insegnare e addestrare utilizzando i dati
                 Testo editabile
                             correttamente etichettati
                             •   Presentare sia il problema che la soluzione
                             •   Fornendo dati senza etichetta, utilizzerà ciò che ha
                                 appreso per fornire una soluzione
                             Contesti Applicativi:
                                 ✓ Classificazione (ordinamento degli articoli in
                                   categorie)
                                 ✓ Regressione (identificazione dei valori reali)

                            18
Apprendimento NON Supervisionato
                        Apprendimento NON Supervisionato
                      Stabilire una base-line di riferimento. Cercare
                      anomalie (ad es. Rilevamento di comportamenti
                 Slidesospetti)
                       di sfondo
                 Testo• Utilizza
                        editabileset di soluzioni sconosciuti. Non viene fornita
                        alcuna soluzione o risultato
                        • L'algoritmo inizierà a vedere i modelli, a riconoscere e ad
                          apprendere le etichette da solo
                        Contesti Applicativi:
                          ✓ Clustering (identificazione di somiglianze nei gruppi)
                          ✓ Associazione (alla scoperta di relazioni interessanti tra
                            variabili in un grande database
                          ✓ Anomaly Detection (identificazione di anomalie nei dati)

                             19
Apprendimento Rinforzato

                           Apprendimento Rinforzato
                 Slide di sfondo
                           Prende decisioni per massimizzare il
                 Testo editabile
                           punteggio (es. Gioco di strategia)
                               ▪ Da una determinata posizione, prova una mossa
                                 in base alle conoscenze attuali
                               ▪ Se il risultato della mossa è positivo, incrementa
                                 il peso per tutte le successive mosse della
                                 partita
                               ▪ Se il risultato della mossa è negativo, riduce il
                                 peso.

                          20
Nella vita di tutti i giorni

                       Slide di sfondo
                       Testo editabile

                               21
AI nella ricerca delle Minacce Avanzate
                                                         FORTIGUARD LABS THREAT DATA
                                     1000 TB

                                      900 TB

                                      800 TB

                                      700 TB

                                      600 TB

                                      500 TB

                   Slide di sfondo    400 TB

                                      300 TB

                   Testo editabile    200 TB

                                      100 TB

                                        0

                                            15

                                                 15

                                                      15

                                                           15

                                                                16

                                                                     16

                                                                          16

                                                                               16

                                                                                    17

                                                                                         17

                                                                                              17

                                                                                                   17

                                                                                                        18

                                                                                                             18

                                                                                                                  18

                                                                                                                       18

                                                                                                                            19

                                                                                                                                 19

                                                                                                                                      19

                                                                                                                                           19
                                        1Q

                                               2Q

                                                    3Q

                                                         4Q

                                                              1Q

                                                                   2Q

                                                                        3Q

                                                                             4Q

                                                                                  1Q

                                                                                       2Q

                                                                                            3Q

                                                                                                 4Q

                                                                                                      1Q

                                                                                                           2Q

                                                                                                                3Q

                                                                                                                     4Q

                                                                                                                          1Q

                                                                                                                               2Q

                                                                                                                                    3Q

                                                                                                                                         4Q
                          22
FortiGuard Labs – Intelligence guidata dall’ AI
Miliardi di eventi analizzati ogni giorno

                                                          One of the
                                                       Largest Security
Information
                                                  Slidedi sfondoTeams
                                                       Research                         Prevention
                                                                                        Known attacks
Feeds                                             Testo editabile
200+

                                                                       10B+             Detection
                                                                       Events
450K                                                                                    Unknown attacks

customer                  Firewalls    Web

networks                                                    8 laboratory dedicati
across all major threat                                           31 paesi              Intelligence
vectors                                                                                 Playbooks, IR
                           Emails     Endpoints
                                                        580,000 ore di ricerca l’anno

                                                           23
Multilayer Perceptron (MLP)
▪ Si tratta di una rete artificiale neurale costituita da tre o più livelli
                                                                               L’approccio “Multilayer Perceptron” fornisce
      • Livello di Ingresso                                                       funzionalità di “deep machine learning”
      • Uno o più Livelli nascosti
      • Livello di Uscita
                                           Slide di sfondo
▪   I Livelli sono costituiti da nodi che:
                                           Testo editabile
       • Sono connessi ad ogni nodo del precedente e seguente Livello
                                                                                                                             Output
                                                                                                                             Layer
      • Forniscono una elaborazione delle informazioni di Ingresso         Input
                                                                                         Hidden
                                                                           Layer                              Hidden
        (files e features)                                                               Layer 1              Layer 2
      • Produce un valore di output basato su input, funzioni e valutazione
        ponderata
                                                                                           Inputs   Weights         Sum       Output
                              Il comportamento di una rete MLP è simile a
                                 quello dei neuroni umani. Se l’Ingresso è            Input 1                                YES/NO
                                                                                                                             decision
                              abbastanza forte il segnale viene passato al            Input 2                           ∑
                              successive nodo in base al valore ponderato
                                    Func(f1*w1 + f2*w2 +...+ fn*wn)                   Input 3
                                                                                                               Single Node

                                                        24
FortiGuard Labs - AI
Architettura a 4 Livelli                                                     Fortinet SEDS

1. Livello di Ingresso – sottomette i files per l’ analisi            Self-Evolving Defense System
2. Livelli Nascosti (uno o più) – calcolo computazionale
    •                                        Slide di sfondo
         Un Livello Nascosto scansiona 2.3 Miliardi di nodi
         analizzando potenziali “malicious features”
    •
                                             Testo editabile
         Un Livello Nascosto scansiona 3.2 miliardi di nodis
         analizzando “clean features”
3. Livello di Uscita – risultati dell’ analisi – clean or dirty                                   Output
    •    In Uscita si ottiene il risultato di 2.3B x 3.2B di nodi                                 Layer
         individuali di computazione.                               Input
                                                                    Layer    Malicious   Clean
    •    Feature set attuale – 8.5 Miliardi di “code blocks” .                Layer      Layer
    •    Capacità Iniziale – 58 campioni al secondo
        E’ costituito da livelli separate per l’elaborazione di features “malicious” or clean”.
         I modelli matematici confrontano campioni e caratteristiche per decidere l’Uscita

                                                           25
Features, Nodi e Pesi – Singola Istanza
      Input Layer             Malicious Layer                    Clean Layer                 Output Layer

             1                        2                                3                           4

                                       Slide di sfondo
                                       Testo editabile
      File                 Node                             Node -                       Result
                           +90                               20                           70
                                   Feature                          Feature

                            Se la presenza di una
                                                               L’analisi è ripetuta           Risultato—La
 Si inizia sottomettendo   Feature è rilevata, viene
                                                            utilizzando il successivo    probabilità complessiva
    un file in ingresso       ripesata e passata
                                                            livello, quindi trasferita     basata sul punteggio
   (malicious o clean)        attraverso il nodo
                                                               al nodo successivo         delle features presenti
                                  successivo

                                                       26
Modello di Apprendimento
    1. Si inizia con un modello di
    AI e un repository di features
    vuoto                                      TRAINING                      AI
                                                 FILES
    2. Viene sottomesso in Ingresso un set
                                         Slide di sfondo
    di files di apprendimento, sia di tipo
    "clean" che di tipo "malicious". I files
    sono etichettati per l'apprendimento Testo editabile
    iniziale' training
    3. I file vengono inseriti e suddivisi
    in blocchi di codice. La logica AI
    crea un set di features.                            FEATURES
                                                       REPOSITORY
    4. Le Features sono modificate durante
    l’apprendimento del Sistema (valori di
    ponderazione, fase successiva)
Il sistema viene alimentato con un set di dati iniziali utilizzando un modello di apprendimento supervisionato

                                                     27
Testing del sistema
1. Vengono selezionati dei          TESTING                     OUTPUT
Campioni e sottomessi in ingresso    FILES            AI        MALICIOUS
al sistema
2. Usando il repository delle
features, i campioni vengono        Slide di sfondo              CLEAN
analizzati
3. Così facendo, le features        Testo editabile
esistenti potrebbero essere
aggiunte o modificate

4. Il Sistema determina l’Uscita
come “clean” o “malicious”
5. L’ Uscita è confrontata con il
risultato atteso. Se non risulta                    FEATURES
                                                   REPOSITORY    RESULTS
accurato, viene ricondotto ad un
punto conosciuto e riqualificato                                EXAMINED

                                              28
FortiGuard Labs AI in esercizio
                                                           ☺
                                                                                        MALICIOUS

                                        Slide di sfondo                                  CLEAN

                                        Testo editabile
      RAW                       INPUT                                     OUTPUT
    SAMPLES
                                                 FEATURES
Miglioramento
del Feature Set
 ▪ Qualità                                                      Continuo controllo di
                   Quantity

 ▪ Numero                                                          accuratezza per
   Stabilizzato                                                  raggiungere un alto
 ▪ Confidenza di                                                grado di confidenza
   Ponderazione
                              Quality
                                                  29
Come ML e AI si integrano in FortiSandbox
Eravamo rimasti alla domanda:
La Sandbox è una tecnologia
ancora valida nell’era dell’AI?

                                                      FortiSandbox Community Cloud
                                                                                     FortiGuard Distribution Network
                                    Slide di sfondo

                                                                                     Threat Intelligence Repository
SI, se le funzionalità tipiche di
                                    Testo editabile
protezione APT / Zero-Day
sono state integrate con
opportuni modelli di ML e AI

                                           30
FortiSandbox Machine Learning e AI
◼       Sono state integrate due componenti:
    •     Un modello di Machine Learning basato su file, di tipo Random Forest
          •       Funzione – File Analysis
          •       Input: File, Output Rating (es. med/high risk)
          •                                            Slide di sfondo
                  Applicato durante la fase di Static Scan

                                                       Testo editabile
                    (Prescan prima della esecuzione in VM)
          •       Rileva “malicious features” all’interno dei files
          •       Modello di apprendimento Supervisionato
    •     Una tipologia di AI su base comportamentale,
              basato su modello Bayesiano e di Lightgbm
          •       Funzione: Overall scoring
          •       Input: Behavior, Output: Punteggio
          •       Viene applicato ai log del Tracer Engine, ottenuti dopo l’esecuzione del file (overall scoring engine)
          •       Aggiornato su base mensile, training a cura dei FortiGuard Labs

                                                                           31
Fortinet  ML e AIMLaAcross
 Customer-deployed   protezione
                           the Cyberdella   Cyber Kill Chain
                                    Kill Chain
    Reconnaissance                     Delivery                        Installation                       Act on Objectives
                     Weaponization                      Exploitation                  Command & Control

                                         Slide di sfondo
                                         Testo editabile

                                                  FortiWeb
                                                                                                           FortiInsight
                                                                       FortiEDR

                                     FortiSanbox

                                                                                          FortiAI

                                FortiMail     FortiGate

    FortiDeceptor
                                                          32
FortiAI Virtual Security AnalystTM

                    Slide di sfondo
                    Testo editabile

                           33
Slide di sfondo

Q&A
Testo editabile

       34
Puoi anche leggere