Elaborazione dati parallela con map/reduce - Roberto Congiu

Pagina creata da Mirko Giovannini

Varie

Italiano

Piace
Condividi
Incorpora
Schermo intero
Diapositive
Scarica HTML
Scarica PDF
Abuso

←

CONTINUA A LEGGERE

→

Trascrizione del contenuto della pagina

Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù

Elaborazione dati parallela con
map/reduce
   Roberto Congiu
   rcongiu@yahoo.com

Indice delle slide

  Introduzione a Map/Reduce
  Descrizione del modello
  Implementazione
  Ottimizzazioni

Introduzione

  Map/Reduce e’ un modello di
   programmazione e la sua
   implementazione per elaborare grandi
   quantita’ di dati
  Le applicazioni scritte usando map
   reduce possono essere eseguite in
   cluster di macchine economiche con una
   curva di apprendimento brevissima

Tipo di applicazioni

  Web Indexing
  Reverse Web-Link graph
  Distributed sort
  URL access counter

Vantaggi

  Elaborazione distribuita su un cluster
   ‘commodity’
  Scalabile quasi linearmente
  Paradigma facile da imparare per il
   programmatore

Modello

  Input: insieme di coppie chiave/valore
  Output: insieme di coppie chiave/valore
  Elaborazione in due stadi: Map e
   Reduce
  Map produce un insieme intermedio di
   coppie chiave/valore
  Map e Reduce sono scritte dallo
   sviluppatore

Esempio (1)

    Contare il numero di occorrenze di una
     parola
 Map(String key, String value):
   // key: document name
   // value: document contents
   for each word w in value:
        EmitIntermediate(w, “1” );

Esempio (2)
 Reduce (String key, Iterator values):
   // key: a word
   // values: a list of counts
   int result=0
   for each v in values:
       result += ParseInt(v)

   Emit(AsString(result))

Esempio (3)

  Map emette le parole con un semplice
   “1” associato
  Reduce somma tutti gli “1” prodotti per
   ottenere il totale
  Il programmatore indica indica anche i
   nomi dei file di ingresso e di uscita e i
   parametri (opzionali) di ottimizzazione.
  Il codice e’ linkato con la libreria

Types

  Map: (k1,v1) -> list(k2,v2)
  Reduce: (k2,list(v2)) -> list(v2)

Implementazione

  Diverse implementazioni sono possibili a
   seconda dell’hardware disponibile
  Ci focalizzeremo su cluster di macchine
   di basse prestazioni (single/dual proc
   x86 con 2G di RAM e disco IDE)
   piuttosto che su supercomputer

Implementation schema

Partizionamento

  I dati in ingresso vengono divisi in M
   partizioni
  Le M partizioni verranno elaborate in
   parallelo dai mapper su macchine
   diverse
  L’operazione di reduce e’ parallelizzata
   partizionando lo spazio delle chiavi
   intermedie in R partizioni (hash(key)
   mod R)

Partizionamento

  Il numero di partizioni M e’ in genere
   scelto tale che ogni partizione sia dai 16
   ai 64 Mb (controllabile come parametro)
  Il numero di partizioni R e la funzione di
   partizionamento sono specificate
   dall’utente.

Master e Workers

    Su ogni macchina del cluster gira uno o piu’
     processi controllati dalla libreria
    Un processo e’ il master, che assegna ai
     workers un’operazione di map o di reduce,
     passandogli la partizione da elaborare
    Un worker che elabora un map legge la
     partizione in ingresso e emette chiave/valore in
     M partizioni usando la funzione di hash
     specificata dall’utente.

Master e workers

  Il map worker bufferizza su disco il
   risultato. Quando termina, notifica il
   master con la locazione dei file prodotti
   (un numero

Reduce

  Il reduce worker ordina tutti I file in
   ingresso per chiave
  Per ogni chiave incontrata, passa tutti I
   valori corrispondenti alla funzione scritta
   dall’utente
  Il reduce worker quindi scrive in un file
   system globale I risultati emessi per
   quella partizione

Output

  L’output e’ partizionato in R file
  Non e’ necessario ricombinarli se sono a
   loro volta l’input di un’altro processo di
   map/reduce

Master

  Per ogni operazione di map o reduce,
   mantiene lo stato (idle, in-progress,
   completed)
  Propaga le locazioni dei file di input,
   intermedi, e di output

Fault tolerance

  Il master ‘pinga’ periodicamente I worker
  Se il worker non risponde entro un certo
   tempo, viene considerato fallito e quindi
   re-schedulato (impostato a idle)
  Le operazioni di map salvano il loro
   output su dischi locali e quindi vengono
   reschedulate anche se complete se la
   macchina sulla quale sono state
   eseguite ha un guasto

Fault tolerance

  Le operazioni di reduce salvano il loro
   risultato su un disco globale quindi non
   hanno bisogno di essere re-esguite.
  Il fallimento del master e’ improbabile,
   ma puo’ periodicamente salvare su disco
   lo stato ed essere rieseguito.

Operazioni di backup

    In un cluster, alcune macchine possono
     essere molto piu’ lente di altre (problemi di
     rete, di carico eccessivo): il task di map o
     reduce puo’ quindi essere lento e ritardare il
     completamento dell’elaborazione
    Quando l’elaborazione e’ vicina al
     completamento, tutte le operazioni in progress
     vengono rischedulate. Il primo worker che
     completa viene preso, l’altro scartato
    Questo meccanismo generalmente migliora le
     prestazioni di circa il 40%

Combiner

  Nell’esempio del conteggio delle parole,
   si potrebbe calcolare un subtotale per
   ogni mapper per rendere piu’ piccoli I file
   in uscita
  Ottimizzazione: il combiner calcola il
   subtotale usando la stessa funzione
   usata per il reduce
  L’operazione di reduce deve essere
   associativa e commutativa.

Formato di input e output

  Qualsiasi formato che possa essere
   trattato come chiave/valore puo’ essere
   utilizzato
  Nell’implementazione, si puo’ astrarre in
   un reader/writer generico

Errori di elaborazione

  Se un file provoca un errore in maniera
   deterministica (per esempio un segfault)
   in un worker, l’elaborazione non verra’
   mai portata a termine
  Si puo’ implementare un meccanismo
   che marca I record problematici e
   permette di saltarli, loggarli e completare
   comunque l’elaborazione

Bibliografia

    MapReduce: Simplified Data Processing
     on Large Clusters (J.Dean e Sanjay
     Ghemewat)

Puoi anche leggere

Sistema di elaborazione dati ad ultrasuoni - Manuale di istruzioni - Novatest.it

Air Cooled TrueMold Mold Circulator Model MC75-AC

PORTALE PER LA RILEVAZIONE DELLA RADIOATTIVITA' - Descrizione Tecnica Gamma Scan LB128 RIFIUTI OSPEDALIERI RIFIUTI URBANI TRATTAMENTO ROTTAMI ...

Acronis Backup & Recovery 10 Server for Windows - Update 5 Riferimento linea di comando

MPXPRO Controllo elettronico - Manuale d'uso - CAREL

Programmazione della shell Bash - Marco Liverani Agosto 2011

Manuale d'uso User manual - FCR3 regolatore di velocità trifase collegamento RS485 Modbus three-phase speed controller RS485 Modbus connection - CAREL

Esercitazione in Laboratorio: risoluzione di problemi di programmazione lineare tramite Excel - il mix di produzione - Versione 11/03/2004

RIDUTTORI EPICICLOIDALI PLANETARY GEARBOXES

FILEMAKER 16 GUIDA SQL - FILEMAKER, INC.

SERRATURE LOCKS - STM Italy

Dizionari e File in Python - Corso di Visione e Percezione - Unibas

Modulo I Corso integrato di Sistemi di Elaborazione - Prof. Crescenzio Gallo

MAGAZINE - Bogliasco Immobiliare

FUNZIONI AVANZATE CON EXCEL 2007

Dizionari e File in Python - Corso di Visione e Percezione A.A. 2019/2020 - Presentazione standard di ...

Acronis True Image Echo - Server per Linux

Algoritmi e Strutture Dati - Hashing Alberto Montresor 2019/01/13 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 ...

UDC 2300 Regolatore Digitale Universale Manuale dell'Utente - 51-52-25-83-IT - IT1I-6236

Algoritmi e Strutture Dati - Hashing Alberto Montresor 2019/01/13 This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 ...

INFORMATICA GENERALE HOMEWORK DI RECUPERO 2018 - UNIROMA1 TWIKI

CATALOGUE 5.0 - Motion Control Products

Multi Format Compact Switcher - pro.sony

Guida elettrodomestici 2014

Data Projector Istruzioni d'uso - pro.sony

PHP e crittografia: un'introduzione all'utilizzo delle librerie mcrypt e mhash - a cura di Enrico Zimuel

SCEGLI IL TUO STATUS - Status Tools

Costi semplificati: Omnibus & outlook post 2020 - Firenze, 25 Ottobre 2019 - Basilicata ...

Architettura hardware di un computer - Macchina di Von Neumann CPU

Specifiche tecniche per l'interoperabilità tra i sistemi regionali di FSE - Affinity Domain Italia - Fascicolo Sanitario Elettronico

Società di investimento a capitale variabile (SICAV) di tipo aperto - IT PROSPETTO INFORMATIVO - NN Investment Partners

QUESTIONI LEGATE ALLA REVISIONE DEL BILANCIO 2020 PROBLEMATICHE E CHIARIMENTI ESEMPI PRATICI

Listino Prezzi 2020/2021 - Adagio Italia

Linux in Rete, stop agli intrusi

Partition Manager 15 Home

Operazioni dell'Eurosistema. Specifiche per gli Operatori 2021.2

Effetti del contratto a tutele crescenti Dati sul Jobs act - Documentazione e ricerche - Camera dei ...

VALERIO DE MOLLI - Technology Forum 2019 - PRESENTATION BY - The European ...

La gestione della raccolta differenziata in Liguria - Genova, 4 dicembre 2017

Cooperativa di acquisti HSK Benchmark SwissDRG Anno tariffario 2020 - Dati dell'anno 2018 Pubblicazione: agosto 2019

Release 1.2 - PIATTAFORMA di E-COMMERCE B2B ANGAISA

PROGETTI PER L'ARRICCHIMENTO DELL'OFFERTA FORMATIVA - 2circolomoromodugno

Nota metodologica 2021 - CENSIS

HTML 5 e CSS 3: UN CONNUBIO VINCENTE PER LA PROGRAMMAZIONE WEB DI DOMANI

MANUALE UTENTE NEXUS ANTINTRUSIONE , VIDEOSICUREZZA , DOMOTICA

Catalogo Tecnico Biomassa - Biomass Technical Catalog Catalogue technique - Technisches Katalog - Catálogo técnico - Catálogo técnico - Foco Stufe

Tekla Structures 2017 - Template e report marzo 2017 - Tekla User Assistance

Piattaforma di e-learning Moodle Manuale Utente

Il lavoro a Milano Edizione 2021 - Assolombarda

PRESENTAZIONE DI VALERIO DE MOLLI - Managing Partner e CEO, The European House - Ambrosetti - The European House ...