Nainstalujte Apache Hadoop na Ubuntu 17.10!

Apache Hadoop je řešení velkých dat pro ukládání a analýzu velkého množství dat. V tomto článku podrobně popíšeme složité kroky nastavení pro Apache Hadoop, abyste mohli s Ubuntu začít co nejrychleji. V tomto příspěvku nainstalujeme Apache Hadoop na Ubuntu 17.10 strojů.

Verze Ubuntu

V této příručce budeme používat Ubuntu verze 17.10 (GNU / Linux 4.13.0-38-generic x86_64).

Aktualizace stávajících balíčků

Pro spuštění instalace pro Hadoop je nutné, abychom náš stroj aktualizovali o nejnovější dostupné softwarové balíčky. Můžeme to udělat pomocí:

sudo apt-get update && sudo apt-get -y dist-upgrade

Protože Hadoop je založen na Javě, musíme si jej nainstalovat na náš stroj. Můžeme použít libovolnou verzi Java nad Java 6. Zde budeme používat Java 8:

sudo apt-get -y install openjdk-8-jdk-headless

Stahování souborů Hadoop

Na našem stroji nyní existují všechny potřebné balíčky. Jsme připraveni stáhnout požadované soubory Hadoop TAR, abychom je mohli začít nastavovat a spouštět ukázkový program také s Hadoop.

V této příručce budeme instalovat Hadoop v3.0.1. Pomocí tohoto příkazu stáhněte odpovídající soubory:

wget http: // zrcadlo.cc.columbia.edu / pub / software / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.dehet.gz

V závislosti na rychlosti sítě to může trvat až několik minut, protože soubor má velkou velikost:

Stahování Hadoop

Nejnovější binární soubory Hadoop najdete zde. Nyní, když máme stažený soubor TAR, můžeme extrahovat v aktuálním adresáři:

tar xvzf hadoop-3.0.1.dehet.gz

Bude to trvat několik sekund, protože archiv má velkou velikost souboru:

Hadoop byl archivován

Přidána nová skupina uživatelů Hadoop

Jelikož Hadoop pracuje přes HDFS, nový systém souborů může narušit náš vlastní souborový systém i na stroji Ubuntu. Abychom se této kolizi vyhnuli, vytvoříme zcela samostatnou skupinu uživatelů a přiřadíme ji společnosti Hadoop, aby obsahovala vlastní oprávnění. Tímto příkazem můžeme přidat novou skupinu uživatelů:

addgroup hadoop

Uvidíme něco jako:

Přidání skupiny uživatelů Hadoop

Jsme připraveni přidat do této skupiny nového uživatele:

useradd -G hadoop hadoopuser

Vezměte prosím na vědomí, že všechny příkazy, které spouštíme, jsou jako uživatel root. Pomocí příkazu aove jsme mohli přidat nového uživatele do skupiny, kterou jsme vytvořili.

Abychom uživateli Hadoop mohli provádět operace, musíme mu také poskytnout přístup root. Otevři / etc / sudoers soubor s tímto příkazem:

sudo visudo

Než něco přidáme, soubor bude vypadat takto:

Sudoers soubor před přidáním cokoli

Přidejte následující řádek na konec souboru:

hadoopuser ALL = (ALL) ALL

Nyní bude soubor vypadat takto:

Soubor Sudoers po přidání uživatele Hadoop

Toto bylo hlavní nastavení pro poskytování platformy Hadoop k provádění akcí. Nyní jsme připraveni nastavit jeden uzel clusteru Hadoop.

Nastavení jednoho uzlu Hadoop: samostatný režim

Pokud jde o skutečnou sílu Hadoopu, je obvykle nastaven na více serverech, aby mohl škálovat nad velkým množstvím datové sady přítomné v Systém distribuovaných souborů Hadoop (HDFS). To je obvykle v pořádku s ladicím prostředím a nepoužívá se pro produkční použití. Aby byl proces jednoduchý, vysvětlíme zde, jak můžeme provést nastavení jediného uzlu pro Hadoop.

Po dokončení instalace Hadoopu také spustíme ukázkovou aplikaci na Hadoopu. Od této chvíle je soubor Hadoop pojmenován jako hadoop-3.0.1. přejmenujme to na hadoop pro jednodušší použití:

mv hadoop-3.0.1 hadoop

Soubor nyní vypadá takto:

Stěhování Hadoop

Čas využít uživatele hadoop, kterého jsme vytvořili dříve, a přiřadit tomuto uživateli vlastnictví tohoto souboru:

chown -R hadoopuser: hadoop / root / hadoop

Lepším umístěním pro Hadoop bude adresář / usr / local /, takže ho tam přesuňte:

mv hadoop / usr / local /
cd / usr / local /

Přidání Hadoop do cesty

Abychom mohli spouštět skripty Hadoop, přidáme jej nyní na cestu. Chcete-li to provést, otevřete soubor bashrc:

vi ~ /.bashrc

Přidejte tyto řádky na konec .soubor bashrc, aby cesta mohla obsahovat cestu ke spustitelnému souboru Hadoop:

# Konfigurujte Hadoop a Java Home
exportovat HADOOP_HOME = / usr / local / hadoop
exportovat JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
export PATH = $ PATH: $ HADOOP_HOME / bin

Soubor vypadá takto:

Přidání Hadoop do cesty

Protože Hadoop využívá Javu, musíme říct soubor prostředí Hadoop hadoop-env.sh kde se nachází. Umístění tohoto souboru se může lišit podle verzí Hadoop. Chcete-li snadno zjistit, kde je tento soubor umístěn, spusťte následující příkaz přímo mimo adresář Hadoop:

najít hadoop / -name hadoop-env.sh

Získáme výstup pro umístění souboru:

Umístění souboru prostředí

Upravme tento soubor, abychom informovali Hadoop o umístění Java JDK, a vložte jej do posledního řádku souboru a uložte jej:

exportovat JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

Instalace a nastavení Hadoop je nyní dokončeno. Nyní jsme připraveni spustit naši ukázkovou aplikaci. Ale počkejte, nikdy jsme nepodali ukázkovou aplikaci!

Spuštění ukázkové aplikace s Hadoop

Instalace Hadoop ve skutečnosti přichází s vestavěnou ukázkovou aplikací, která je připravena ke spuštění, jakmile dokončíme instalaci Hadoop. Zní to dobře, správně?

Spuštěním následujícího příkazu spustíte příklad JAR:

hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-examples-3.0.1.jar wordcount / root / hadoop / README.txt / root / výstup

Hadoop ukáže, kolik zpracování provedl v uzlu:

Statistiky zpracování Hadoop

Jakmile spustíte následující příkaz, uvidíme jako výstup soubor part-r-00000. Pokračujte a podívejte se na obsah výstupu:

kočka část-r-00000

Získáte něco jako:

Počet slov výstupem Hadoop

Závěr

V této lekci jsme se podívali na to, jak můžeme nainstalovat a začít používat Apache Hadoop na Ubuntu 17.10 strojů. Hadoop je skvělý pro ukládání a analýzu obrovského množství dat a doufám, že vám tento článek pomůže rychle začít s jeho používáním v Ubuntu.