Mpp VS Hadoop场景分析

1.节点 MPP,这里以Greenplum为代表,不超过100节点,不过这里说的100节点是说100台机器还是100个节点,按照实际部署,一台物理机器其实不会只部署一个节点的,这里我严重怀疑是100台机器,因为我在实际中已经用3台物理机做出了10节点的情况(6台虚拟机,1master5segment,双节点双网卡) 因此,如果部署节点数在100下,用GP没问题,在实际中小型企业中,超过100节点的不多,就是hadoop集群超过100节点的也不多,所以节点问题基本不用太在意。 2.处理数据量 这是一个有明显分别的参考量,如果到PB级数据就用hadoop吧,GP玩不动了。 3.并发性能 如果需要的并发数目比较高,超过50-100这个级别,GP也别考虑了,因为GP性能的好是以牺牲机器性能得到的,如果并发数过多,对性能影响很明显。 4.结构化/非结构化数据 如果是非结构化的,GP连想都不用想。 5.业务复杂性 其实业务复杂性这个说法不太准确,这里是想说如果你要处理的数据关系较为复杂,也就是说有复杂的SQL要求,这个时候GP是首选。 总结以上:GP的适用场景是数据量在TB,节点数不多(100以内),并发较小(50左右),有复杂(或简单)的数据分析场景的选择。 引用地址:http://m.blog.csdn.net/article/details?id=50804104

Continue Reading →