您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 枣庄分类信息网,免费分类信息发布

年终盘点:2017年数据科学发展的新趋势

2024/1/29 0:12:43发布12次查看
【it168 评论】2001年,gartner给出了大数据的概念,即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3v特征,即海量、速度和多样性,也很明确的为我们指出了大数据在哪些方面存在挑战。但是,16年过去了,现在大数据发展仍然没有达到边界,还是一个充满想象力的领域。
因为数据的存在,让很多新的行业焕发出了无限的价值,社交媒体网站可能就是一个典型的例子。对于企业来说,目前的主要问题就是如何使用收集来的数据创造价值。为此,dzone社区调查了734个和大数据相关的技术人员,下面我们就来看看有哪些有趣的结论。
开源仍然是大趋势
开源是整个it技术的大趋势,在大数据领域也不例外。据dzone的相关调查,71% 的受访者都在使用开源工具进行数据科学的相关工作,只有16%的人在使用商业工具。开源工具在个人开发项目和企业应用程序中得到了快速应用。
2016年曝光度最高的开源工具spark,今年的采用率从去年的31%增长到了45%。而今年曝光率最高的开源工具,tensorflow绝对算得上一号,自谷歌一年半之前发布以来tensorflow的采用率已经达到17%。
开源工具的出现让大数据的应用推进的更快,如果不能快速适应上手新的开源工具,那么关于数据科学的相关工具就无法开展。
apache hadoop仍然是领头羊
前几天,有的专家在预测数据库未来发展趋势时,提出了一个观点那就是“hadoop将死”,但是通过具体的数据,我们发现apache hadoop现在仍然有实力强劲。65%的数据工程师都正在使用或者曾经使用过apache hadoop。47%的技术人员使用yarn进行集群管理。62%使用apache zookeeper,55%使用hive来做数据仓储。
得益于mapreduce处理和存储数据的能力,自2011年发布以来,apache hadoop就一直呈现着高速发展的趋势,现在广受欢迎的众多先进工具都是建立在hadoop之上。对于开发者和数据科学家来说,hadoop是一盏明灯,有助于他们在未来职业中的晋升。
当然,为了克服mapreduce的局限性,apache spark应运而生,同时还衍生出一些其他的新技术,例如 spark sql、graphx、 mlib和 spark stream等等。
数据库的发展
关于数据库的发展,今年并没有大格局的变化。据dzone的调查,mysql被60%的受访者应用于生产和非生产的环境中。mongodb被47%的受访者应用于生产环境中,48%应用于非生产环境中,postgresql被41%的受访者应用于生产环境中和40%应用于非生产环境中。
而商业数据库可能是由于许可证的问题,似乎并不如开源数据库那么受欢迎。而其他一些数据库,例如sqlite这样轻量级的数据库也会占据一定的份额。但是nosql数据库的发展则越来越稳健,有56%的数据科学从业人员选择使用nosql。
编程语言、工具、库和框架
数据科学其实很大程度上都依赖开源的编程语言、工具、库和框架。就编程语言来说,python和r都是数据科学的热门语言。相比较于r语言来说,python可能更受欢迎一些,其在受访者中获得了63%的支持,而r语言则获得了61%的支持。
而对于框架来说,spark stream在流数据计算框架中颇受欢迎,在数据采集过程中kafka得到了54%的支持。剩余其它的一些框架则没有得到超过25%的支持率,不过,这其中还有一匹黑马,那就是graphx,其在迭代图处理类别中获得了24%的支持率。
枣庄分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录