网站建设咨询热线：0531-68808868

IDC激增，外媒称大数据领域将有新赢家或指NoSQL

来源：本站发布者：管理员阅读：次

全球复杂网络研究专家日前到访中国，为其新作《爆发》作宣传。他在接受国内媒体采访时表示，未来可能有新公司取代谷歌、Facebook等公司，成为大数据领域的赢家。
　　《爆发》一书是一本讨论大数据问题的商业书籍。作为复杂网络研究的权威，巴拉巴西在大数据兴起的背景下，得出一个结论性的判断，认为人类行为93%是可以预测的。
　　巴拉巴西的研究是在人类生活数字化的大数据时代基础上进行的，移动电话、网络以及电子邮件使人类行为变得更加容易量化，将我们的社会变成了一个巨大的数据库。济南网站建设
　　在本书中，巴拉巴西揭开人类行为背后隐藏的模式“爆发”，提出人类日常行为模式不是随机的，而是具有“爆发性”的。
　　今天下午，巴拉巴西接受国内媒体采访，并对于IT行业的大数据公司作出点评。他表示，虽然谷歌在大数据搜集方面有好的历史，但未来谷歌可能会与Facebook等公司并驾齐驱。
　　巴拉巴西表示，微软(微博)一直想打赢谷歌，但是微软没有打赢;谷歌一直想打赢Facebook，但是谷歌推出的社交服务Google+也一直没有打赢Facebook。同样，Facebook也没有打赢Twitter，所以未来很有可能有新的公司出现，取代他们。
　　近来，大数据已经成为各个行业讨论的热点。在IT领域，包括IBM、惠普等在内的厂商在追捧“大数据”的概念，并且推出一系列针对“大数据”的分析解决方案，挖掘数据背后的价值。
　　资深IT专家谢文此前接受新浪科技采访时表示，未来能够称得上大数据的公司将是Facebook、苹果、谷歌等这样的平台型公司。他还预测，Facebook上市后，下一个伟大的公司应该是大数据方向的公司，并有可能在2020年上市。
IDC估计到2011年数据约达到1.8ZB。
　　ZB有多大?答案是10亿个TB。目前世界人口有7亿——也就是说，如果给每个人250G硬盘——存储空间仍然是不够用的。
　　这次的数据洪流有诸多来源：
　　1. 纽约证券交易所每天产生1TB的新交易数据;
　　2. Facebook主机存储100亿张照片会占用1PB空间;
　　3. Ancestry.com，家谱网，存储约2.5PB数据;
　　4. 互联网档案馆存储约2PB数据，并以每月约20TB的速度增长;
　　5. Geneva附近的Large Harden Colider每年将产生15PB的数据;
　　6. 人们每天从传感器、移动设备、网上交易和社交网络创造相当于2.5万亿字节的数据。
　　Facebook、Yahoo和Google发现他们以空前的规模汇集数据。他们是第一批从上百万用户中汇集数据的大公司。
　　这些数据迅速淹没了传统的例如Oracle和MySQL等的数据系统。即便是最好的、最昂贵的供应商使用最大规模的硬件也只能勉强跟上，无法给他们有力的工具来分析数据的涌入。
　　在2000年初，开发诸如MapReduce、BigTable、Google File System的新技术来处理大数据。最初，这些技术是专有的。但随后人们注意到公开的概念会更有利-因为越来越多的人会有助于此，并且他们雇佣的毕业生在加入他们之前对此也会有一个良好的理解。
　　在2004-2005年度，Facebook、Yahoo和Google开始共享描述他们大数据技术的研究论文。
　　2004年，Google发表题为“MapReduce：在大型集群上简化数据处理(MapReduce: Simplified Data Processing on Large Clusters)”的论文。
　　MapReduce是一个编程模型，同时也是一个处理和生成大型数据的工具。用户指定映射函数来处理一对key-value以生成一个中间key-value的集合，指定reduce函数合并相同的中间键关联的所有的中间值。正如这篇文章所写，现实世界的许多工作都可以在这个模型中得以表达。
　　以此功能所编写的程序自动并行，而且能在商品机大型集群上执行。系统处理分割输入数据的细节，跨机器调度程序执行，处理机器故障，管理所需的机器间的通讯。这样使得没有任何操作并行和分布式系统经验的程序员同样可以轻松地利用大型分布式系统的资源。Google基于MapReduce实现在大型集群的商品机上运行并且这是高度可伸缩的。
　　一个典型的MapReduce在成百上千台机器上处理大量的数据。设计器和系统是很容易使用的。数以百计的MapReduce程序已经实施并且每天有超过一千的MapReduce工作在Google集群执行。
　　Nutch是一个开源的搜索技术，现在由Apache Software Foundation管理，而为其工作的Doug Cutting阅读了由Google发表的此文和由Google分布式文件系统[GFS]发表的另一篇文章，指出GFS可以解决他们的存储要求，MapReduce也会解决Nuth和实施MapReduce及GFS的缩放问题。他们把为Nutch实施的GFS命名为Nutch Distributed Filesystem[NDFS]。
　　NDFS和Nutch的MapReduce的实现超出了搜索领域，并于2006年2月迁移出Nutch构建成一个名为Hadoop和NDFS的独立的Lucene子项目，成为HDFS[Hadoop分布式文件系统]，这是一个GFS的实现。与此同时，Yahoo延长了他们对Hadoop的支持并雇佣了Doug Cutting。
　　在HDFS的工作层面，有一个300MB的文件[Hadoop的PB级和TB级文件非常好]。HDFS所需做的第一件事就是将它分割为若干块。HDFS上的默认块的大小为128MB。一旦把他们分割成块，我们将得到分别为128MB和44MB的两个部分。现在，HDFS将‘n’[‘n’即是配置]作为每个块的拷贝/副本的一部分。HDFS将这些副本存储在集群的不同数据节点上。我们也有单一的保持着副本和数据节点路径的数据NameNode。NameNode清楚副本在什么位置-每当它检测到有副本损坏[DataNode一直在副本上进行校验]或者相应的HDFS变为down，它将会寻找集群中该副本的其他副本，并告诉其他节点复制该副本的‘n’。NameNode是一个单点故障-两个点就会避免出现这种情况，我们会有与主要NameNode同步的次要NameNode-当主的变为down-从的将会起控制作用。Hadoop项目目前工作在分布式的NameNodes上。
标签：济南网站建设网站建设济南网站制作网址： www.web0531.com

打印本文
关闭本页
建站服务热线：0531-68808868 售后服务专线：0531-88961515

建站咨询：0531-68808868

咨询QQ：860139571

免费400咨询热线：400-688-0213

了解更多套餐服务后台演示

栏目导航：Type