Wat is het verschil tussen HDFS en MapReduce

De grootste verschil tussen HDFS en MapReduce is dat HDFS is een gedistribueerd bestandssysteem dat een hoge doorvoertoegang biedt tot toepassingsgegevens, terwijl MapReduce een softwarematig raamwerk is dat grote gegevens over grote clusters betrouwbaar verwerkt.

Big data is een verzameling van een grote dataset. Het heeft drie hoofdkenmerken: volume, snelheid en variëteit. Hadoop is een software waarmee big data kan worden opgeslagen en beheerd. Het is een open source framework geschreven in Java. Bovendien ondersteunt het gedistribueerde verwerking van grote gegevenssets over clusters van computers. HDFS en MapReduce zijn twee modules in Hadoop-architectuur.

Key Areas Covered

1. Wat is HDFS
     - Definitie, functionaliteit
2. Wat is MapReduce
     - Definitie, functionaliteit
3. Wat is het verschil tussen HDFS en MapReduce
     - Vergelijking van belangrijke verschillen

Sleutelbegrippen

Big Data, HDFS, MapReduce

Wat is HDFS

HDFS staat voor Hadoop Distributed File System. Het is een gedistribueerd bestandssysteem van Hadoop dat betrouwbaar en efficiënt op grote clusters kan draaien. Het is ook gebaseerd op het Google Bestandssysteem (GFS). Bovendien heeft het ook een lijst met opdrachten om te communiceren met het bestandssysteem.

Verder werkt de HDFS volgens de master, slave-architectuur. Het hoofdknooppunt of naamknooppunt beheert de metadata van het bestandssysteem terwijl de slaafknooppunten of de gegevensnota's actuele gegevens opslaan.

Figuur 1: HDFS-architectuur

Bovendien is een bestand in een HDFS-naamruimte opgesplitst in verschillende blokken. Gegevensknooppunten slaan deze blokken op. En het naamknooppunt wijst de blokken toe aan de gegevensknooppunten, die de lees- en schrijfbewerkingen met het bestandssysteem afhandelen. Bovendien voeren ze taken uit zoals het creëren van een blok, het verwijderen, enz. Zoals aangegeven door het naamknooppunt.

Wat is MapReduce

MapReduce is een softwarematig framework waarmee schrijftoepassingen big data tegelijk kunnen verwerken op grote clusters van commodity-hardware. Dit raamwerk bestaat uit één master-jobtracker en één slave-taaktracker per clusterknooppunt. De master voert resourcemanagement uit, plant taken op slaves, bewaakt en voert de mislukte taken opnieuw uit. Aan de andere kant voert de slave-taaktracker de taken uit die zijn opgedragen door de master en verzendt de statusinformatie van de taken constant terug naar de mater.

Figuur 2: MapReduce-overzicht

Er zijn ook twee taken gekoppeld aan MapReduce. Ze zijn de kaarttaak en de taak verminderen. De kaarttaak neemt invoergegevens in en verdeelt deze in tupels van sleutel, waardeparen terwijl de taak Verkleinen de uitvoer van een kaarttaak als invoer neemt en die datatubbelaars in kleinere tupels verbindt. Bovendien wordt de kaarttaak uitgevoerd vóór de taak verminderen.

Verschil tussen HDFS en MapReduce

Definitie

HDFS is een gedistribueerd bestandssysteem dat op betrouwbare wijze grote bestanden opslaat op machines in een groot cluster. MapReduce daarentegen is een softwarekader voor het eenvoudig schrijven van applicaties die grote hoeveelheden gegevens parallel verwerken op grote clusters van hardware voor waren op een betrouwbare, fouttolerante manier. Deze definities verklaren het belangrijkste verschil tussen HDFS en MapReduce.

Belangrijkste functionaliteit

Een ander verschil tussen HDFS en MapReduce is dat de HDFS biedt high-performance toegang tot gegevens over zeer schaalbare Hadoop-clusters terwijl MapReduce de verwerking van big data uitvoert.

Conclusie

In het kort zijn HDFS en MapReduce twee modules in de Hadoop-architectuur. Het belangrijkste verschil tussen HDFS en MapReduce is dat HDFS een gedistribueerd bestandssysteem is dat hoge doorvoertoegang biedt tot toepassingsgegevens, terwijl MapReduce een softwareframework is dat grote gegevens over grote clusters betrouwbaar verwerkt..

Referentie:

1. "HDFS Architecture Guide", Apache Hadoop, hier beschikbaar. 
2. "MapReduce Tutorial", Apache Hadoop, hier beschikbaar.
3. "Wat is Hadoop Distributed File System (HDFS)? - Definitie van WhatIs.com. "SearchDataManagement, hier beschikbaar.

Afbeelding met dank aan:

1. "Hdfsarchitecture" By Magnai17 - Eigen werk (CC BY-SA 4.0) via Wikimedia Commons
2. "Mapreduce Overview" door Poposhka - SVG-Edit (CC BY-SA 3.0) via Commons Wikimedia