Velká data

5 Open Source Big Data Platform

5 Open Source Big Data Platform
Tento článek vám poskytne pohled na pět populárních nástrojů s otevřeným zdrojovým kódem, které lze použít k vytvoření platformy pro analýzu dat.

Big data jsou data v řádu terabajtů nebo petabajtů a dále, skládající se z těžby, analýzy a prediktivního modelování velkých datových sad. Rychlý růst informačního a technologického vývoje poskytl jedinečnou příležitost pro jednotlivce a podniky po celém světě, jak vydělat zisky a vyvinout nové možnosti, které předefinují tradiční obchodní modely pomocí rozsáhlých analytických nástrojů.

Tento článek poskytuje pohled z pěti nejpopulárnějších datových platforem s otevřeným zdrojovým kódem z ptačí perspektivy. Zde je náš seznam:

Apache Hadoop

Apache Hadoop je otevřená softwarová platforma, která zpracovává velmi velké datové sady v distribuovaném prostředí s ohledem na úložný a výpočetní výkon a je postavena hlavně na nízkonákladovém komoditním hardwaru.

Apache Hadoop je navržen pro snadné škálování od několika do tisíců serverů. Pomůže vám zpracovat lokálně uložená data v celkovém nastavení paralelního zpracování. Jednou z výhod Hadoopu je, že zvládá selhání na softwarové úrovni. Následující obrázek ilustruje celkovou architekturu ekosystému Hadoop a to, kde se v něm nacházejí různé rámce:

Apache Hadoop poskytuje rámec pro vrstvu systému souborů, vrstvu správy klastrů a vrstvu zpracování. Ponechává možnost, aby ostatní projekty a rámce přišly a spolupracovaly s ekosystémem Hadoop a vyvinuly vlastní rámec pro kteroukoli vrstvu dostupnou v systému.

Apache Hadoop se skládá ze čtyř hlavních modulů. Těmito moduly jsou Hadoop Distributed File System (vrstva systému souborů), Hadoop MapReduce (který pracuje se správou klastrů i se zpracovatelskou vrstvou), Yet Another Resource Negotiator (YARN, the cluster management layer) a Hadoop Common.

Elasticsearch

Elasticsearch je fulltextový vyhledávací a analytický modul. Jedná se o vysoce škálovatelný a distribuovaný systém, speciálně navržený pro efektivní a rychlou práci se systémy velkých dat, kde jedním z jeho hlavních případů použití je analýza protokolů. Je schopen provádět pokročilé a složité vyhledávání a zpracování téměř v reálném čase pro pokročilou analytiku a provozní inteligenci.

Elasticsearch je napsán v Javě a je založen na Apache Lucene. Vydáno v roce 2010 a rychle získalo popularitu díky své flexibilní datové struktuře, škálovatelné architektuře a velmi rychlé době odezvy. Elasticsearch je založen na dokumentu JSON se strukturou bez schémat, díky čemuž je přijetí snadné a bezproblémové. Je to jeden z nejvýznamnějších vyhledávačů podnikové třídy. Můžete napsat jeho klienta v jakémkoli programovacím jazyce; Elasticsearch oficiálně pracuje s Javou, .NET, PHP, Python, Perl atd.

Elasticsearch interaguje hlavně pomocí REST API. Získává data ve formě dokumentů JSON se všemi požadovanými parametry a poskytuje svou odpověď podobným způsobem.

MongoDB

MongoDB je databáze NoSQL založená na datovém modelu úložiště dokumentů. V MongoDB je vše buď kolekce, nebo dokument. Abychom porozuměli terminologii MongoDB, kolekce je alternativní slovo pro tabulku, zatímco document je alternativní slovo pro řádky.

MongoDB je otevřená, dokumentově orientovaná a multiplatformní databáze. Primárně je napsán v jazyce C++. Je to také přední databáze NoSQL, která poskytuje vysoký výkon, vysokou dostupnost a snadnou škálovatelnost. MongoDB používá dokumenty podobné schématu JSON se schématem a poskytuje bohatou podporu dotazů. Mezi hlavní funkce patří indexování, replikace, vyvažování zátěže, agregace a ukládání souborů.

Cassandra

Cassandra je open source projekt Apache určený pro správu databází NoSQL. Řádky Cassandry jsou uspořádány do tabulek a indexovány klíčem. Používá pouze úložný modul založený na logu. Data v Cassandře jsou distribuována na více uzlech bez masteru bez jediného bodu selhání. Jedná se o projekt nejvyšší úrovně Apache a na jeho vývoj v současné době dohlíží Apache Software Foundation (ASF).

Cassandra je navržena k řešení problémů spojených s provozováním ve velkém (webovém) měřítku. Vzhledem k bezchybné architektuře Cassandry je schopna pokračovat v provádění operací navzdory malému (i když významnému) počtu selhání hardwaru. Cassandra běží napříč více uzly napříč několika datovými centry. Replikuje data napříč těmito datovými centry, aby se zabránilo selhání nebo prostojům. Díky tomu je systém vysoce odolný vůči chybám.

Cassandra používá svůj vlastní programovací jazyk pro přístup k datům přes své uzly. Nazývá se Cassandra Query Language nebo CQL. Je to podobné jako s SQL, které používají hlavně relační databáze. CQL lze použít spuštěním vlastní aplikace zvané cqlsh. Cassandra také poskytuje mnoho integračních rozhraní pro více programovacích jazyků pro vytvoření aplikace pomocí Cassandry. Jeho integrační API podporuje Java, C ++, Python a další.

Apache HBase

HBase je další projekt Apache určený ke správě datového úložiště NoSQL. Je navržen tak, aby využíval funkce systému Hadoop Ecosystem, včetně spolehlivosti, odolnosti proti chybám atd. Pro účely úložiště využívá HDFS jako souborový systém. Existuje několik datových modelů, se kterými NoSQL pracuje, a Apache HBase patří do sloupcového datového modelu. HBase byl původně založen na Google Big Table, který také souvisí se sloupcově orientovaným modelem pro nestrukturovaná data.

HBase ukládá vše ve formě páru klíč – hodnota. Je důležité si uvědomit, že v HBase jsou klíč a hodnota ve formě bajtů. Chcete-li tedy uložit jakékoli informace v HBase, musíte převést informace na bajty. (Jinými slovy, jeho API nepřijímá nic jiného než bajtové pole.) S HBase buďte opatrní, protože při ukládání dat byste si měli pamatovat jejich původní typ. Data, která byla původně řetězcem, se při nesprávném vyvolání vrátí jako bajtové pole. Výsledkem bude vytvoření chyby ve vaší aplikaci a její selhání.

Doufám, že se vám tento článek líbil. Pokud hledáte architekturu a design datově náročných aplikací, můžete prozkoumat Anuj Kumar Architektura datově náročných aplikací. Tento rezervovat je vaší bránou k budování inteligentních systémů náročných na data začleněním základních architektonických principů, vzorů a technik náročných na data přímo do vaší aplikační architektury.

Jak změnit levé a pravé tlačítko myši na počítači se systémem Windows 10
Je úplnou normou, že všechna zařízení počítačových myší jsou ergonomicky navržena pro praváky. K dispozici jsou však myší zařízení, která jsou speciál...
Emulace kliknutí myší vznášením pomocí myši Clickless Mouse ve Windows 10
Používání myši nebo klávesnice ve špatném držení těla nadměrného používání může mít za následek mnoho zdravotních problémů, včetně napětí, syndromu ka...
Přidejte gesta myši do Windows 10 pomocí těchto bezplatných nástrojů
V posledních letech se počítače a operační systémy značně vyvinuly. Bývaly doby, kdy uživatelé museli procházet správci souborů pomocí příkazů. Stejně...