Home » Teknologi » Big Data » Spark eller Hadoop: allt en IT-chef behöver veta

Spark eller Hadoop: allt en IT-chef behöver veta

Tech Page One

Spark eller Hadoop: allt en IT-chef behöver veta

 

Det finns en utbredd föreställning om att det bara är ett enda system som kan komma på tal när det gäller big data. Hadoop är så inarbetat att det nästan har blivit synonymt med teknologin som sådan.

Åtminstone till helt nyligen, vill säga. Sedan ett par år tillbaka har Apache Spark seglat upp som en seriös utmanare. Hur står sig de här båda lösningarna mot varandra? Vilken är egentligen bäst?

Det är en knivig fråga eftersom de båda systemen inte är avsedda att lösa exakt samma uppgifter. De kan användas tillsammans, vilket också ofta sker. De är egentligen inte konkurrenter, eftersom båda är plattformar som bygger på öppen källkod där ingen hänsyn behöver tas till marknadskrafterna. Många företag väljer att använde båda systemen utan problem.

Det finns alltså ingen rivalitet mellan systemen. En av Hadoops upphovsmän, Matt Cutting, erkände själv vid en konferens i mars i år att Hadoops roll troligen kommer att minska till förmån för Sparks. Cutting menade att Spark kommer att ersätta programvaran MapReduce vid batchbearbetning, men att Spark och Hadoop annars kommer att användas tillsammans.

Distribuerad lagring

Spark eller Hadoop: allt en IT-chef behöver vetaEn av Sparks svagheter är att den inte har något eget system för distribuerad datalagring. Därför är den svår att använda i big data-projekt där man vill kunna behandla enorma datamängder i petabyte-klass på vanliga hårddiskar, utan speciell maskinvara. Å andra sidan hanterar Spark realtidsprocesser och maskininlärning mycket bättre än Hadoop. Därför har Spark ett övertag i program där data måste behandlas utan fördröjning.

Detta är bara ett exempel på hur Hadoop och Spark skiljer sig åt. De kan användas var för sig men också tillsammans. Framför allt bör man ha klart för sig att den huvudsakliga uppgiften för system som Hadoop och Spark är att möjliggöra datainsamlingsprocessen.

Snabbare bearbetning

Moderna företag strävar efter att skaffa sig korrekt information så snabbt och kostnadseffektivt som möjligt, och de väljer det system som bäst löser den aktuella uppgiften. Om ditt företag till exempel behöver behandla mycket stora datamängder som är strukturerade i SQL-databaser, är Hadoop en lämplig lösning. Om du däremot behöver behandla ostrukturerade data, som innehåll från sociala medier och videoklipp, kan Spark vara ett bättre val.

Rätt system på rätt plats, alltså. Det viktiga med båda systemen är att de behövs för att hantera big data-projekt – en avgörande uppgift för de flesta organisationer i framtiden.

 

 

Maxwell Cooter

Maxwell Cooter

Max är frilansjournalist och har ägnat sig åt en stor mängd olika IT-relaterade ämnen. Han var grundande redaktör för Cloud Pro, en av de första specifika publikationerna om molnet. Han grundade och var redaktör för IDG:s Techworld, och innan dess var han redaktör för Network Week. Som frilansare har han bidragit till IDG Direct, SC Magazine, Computer Weekly, Computer Reseller News, Internet magazine, PC Business World och många fler. Han har även varit talare vid många konferenser och har varit kommentator för BBC, ITN och den datarelaterade tv-kanalen CNBC.

Senaste inlägg:

 

Taggar: Big Data, Teknologi