大数据时代需要学习数据的存储和处理技术。
大数据的存储主要是一些分布式文件系统,现在有好些分布式文件系统。比较火的就是GFS,HDFS前者是谷歌的内部使用的,后者是根据谷歌的相关论文用java开发的来源框架。hdfs可以学习。
然后就是数据处理是学mapreduce,这是大数据出的不错的实现,可以基于hdfs实现大数据处理和优化存储。
还有一个比较好的列式存储的数据库hbase,也是为了大数据儿生的非关系型数据库。
然后就是一些辅助工具框架,比如:hive,pig,zookeeper,sqoop,flum。