Hadoop知识网络总结

最近参与了基地的大数据班,点亮以下技能:

Only use:Hadoop全家桶(HDFS集群、YARN集群)

Code:编写简单的Map/reduce程序。

Other:使用Hive简化编写。

 

总结:根据之前的某个项目总结,某项目的采集端使用如下框架

NewImage

当时使用三表Jion延时可达1分钟。。在宏观数据上,时间已经不是主要考虑的内容,并行和吞吐量是首要,但是仍然需要缓存加快速度(将查询或计算结果保存在SQL或redis)。

 

问题:

对于并行数据格式的控制,在HDFS中使用文件存储是否有规范问题?

计算中多个任务是否会产生异步锁?

能否类似PostgreSQL那样使用GPGPU加速处理数据?

在磁盘速度瓶颈的情况下,把储存的内容先全部Copy至内存再计算是否更快?

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Loading...