Var börjar man om man vill komma igång rent praktiskt med Hadoop? Det enklaste är att köra Hadoop lokalt när man prövar sig fram för att när man känner sig lite säkrare sätta upp ett eget nätverk hemma (om man har flera datorer) eller kanske hellre på ex. Amazon Web Services (EC2). Amazon har faktiskt en tjänst som heter Amazon Elastic Mapreduce (EMR) som gör det enkelt att starta upp kluster och köra sin jobb (mapreduce, hive eller pig).
Hadoop verkar enklast att köra på en linux-burk men jag sitter på en windowsmaskin och är inte mycket av en linuxanvändare idag. Så jag har valt att testa Clouderas lösning med en virtuell maskin och clouderas utbildningskonfiguration, få se hur det går.
För att sätta upp Clouderas lösning på din windowsdator:
- Ladda först ner och installera VMware Player http://downloads.vmware.com/d/info/desktop_downloads/vmware_player/3_0
- Därefter laddar du ner Clouderas VMware image http://www.cloudera.com/downloads/virtual-machine/ (OBS, ca 1 GB)
- Packa upp Clouderas VMware image (använd exempelvis 7zip om du inte har ngt komprimeringsprogram installerat)
- Starta VMware player och välj open a virtual machine, leta upp Clouderas image som du precis packat upp
- Ändra settings (memory = 2 GB, skapa en share folder, lägg till en CD/DVD-enhet
- Kör!
Om vmware klagar på att "The virtual machine is configured for 64-bit guest operating system. However, 64-bit operation is not possible. Long mode is disabled for this vitual machine." men att du har systemstöd för 64-bit så kan du vara tvungen att aktivera Intel Virtualisation Technology i ditt BIOS när du startar upp datorn.
Om vmware vill att du ska installera vmware tools och du får meddelande om att det inte finns någon cd/dvd-enhet så ska du stoppa din VM och välja edit VM preferences och därefter lägga till en dc/dvd-enhet (autodetect), då skapar VM en vmware tools mapp på skrivbordet åt dig med den tar-fil du behöver. Följ därefter instruktionerna på http://www.vmware.com/support/ws5/doc/ws_newguest_tools_linux.html#wp1118025
Om du vill komma åt Internet från din guest (Linux) så är the winning combo: BRIDGED connection + "replicate physical network connection state" (check box) + "connect at power on" (check box). Kan vara användbart om du vill dela filer mellan din host (windows 7) och guest.