Efter att i ett års tid ha följt utvecklingen av stort data (Big data) och framförallt Hadoop, som är en open source lösning för att hantera stort data, så har jag bestämt mig för att försöka lära mig mer om Hadoop. Min målsättning är att innan året är slut satt upp ett skarpt projekt som inkluderar:
- Hadoop - kärnan som de andra projekten bygger på
- HDFS - distribuerat filsystem för stort data
- Pig - ett skriptorienterat sätt att tvätta, strukturera och analysera stora dataset
- Hive - data warehouse lösning som gör det möjligt att ställa SQL-liknande frågor till stora dataset
Om jag hinner med att sätta mig in i
- Zookeeper - koordinering och synkronisering
- Mahout - maskininlärning och data mining
- HBase - distribuerad databas för stort data
- Och någon lösning som flyttar data från exempelvis mysql eller webserverloggar till hadoopklustret
så är det toppen det med.
Jag avser att blogga om hur saker och ting fortskrider för att underlätta för andra som är intresserade av att lära sig mer om Hadoop.
Kommentarer och feedback uppskattas varmt!