找回密码
 立即注册

QQ登录

只需一步,快速开始

用新浪微博登录

只需一步,快速搞定

Pentaho | Kettle 首页 大数据 查看内容

大年夜数据足艺 将去逝世少远景及趋势阐收

时间: 2015-4-8 17:07

作者: 小白

 查看:(3158)  评论:(2)

摘要: 流大数据分析· Storm: Apache Storm是一种开源的分布式实时计算系统。Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理。· Spark: Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于Ha ...

流大年夜数据阐收

· Storm: Apache Storm是一种开源的漫衍式及时计算体系。Storm减快了流数据措置的过程,为Hadoop批措置供应及时数据措置。

· Spark: Spark是一个兼容Hadoop数据源的内存数据措置仄台,运转速率比拟于Hadoop MapReduce更快。Spark开适机器进建战交互式数据查询工做,包露Scala、Python战Java API,那更无益于开辟职员利用。

· Twitter流措置东西Summingbird: 与Storm战Scalding类似,开辟者可利用非常接远本逝世的Scala或Java 正在Summingbird上履止MapReduce功课。

· AWS Kinesis: Amazon Kinesis是一种及时数据流措购置理办事。它能够汇散战措置去自分歧数据源的数据,问应开辟者编写可措置及时疑息的利用法度,去历网站click-streams、营销战财务疑息、制制东西战交际媒体,战操纵日记战计量数据。

· Data Torrent:Data Torrent是及时流媒体仄台,可使企业履止数据措置或转换布局化与非布局化数据、及时数据流到数据中间。该产品尾要操纵Hadoop 2.0战YARN足艺。

· Spring XD:经由过程肆意数量的措置器,Spring XD架构支撑事件驱动的数据流摄与。流是由Spring散成适配器支撑。

· SQL Stream: SQL Stream为流媒体阐收、可视化战机器数据延绝散成供应了一个漫衍式流措置仄台。

  大年夜数据(Hadoop)即办事

· Elastic MapReduce: Amazon Elastic MapReduce(亚马逊EMR)是一个web办事,供应大年夜量数据措置。经由过程一个大年夜小可调剂的Amazon EC2真例散群,EMR利用Hadoop去分派并措置数据。

· Qubole: Qubote的大年夜数据办事供应Hadoop散群内置数据连接器战大年夜数据项目图形编辑器。

· Mortar:Mortar 是一个通用的大年夜范围科教数据仄台。它建坐正在Amazon Web办事云,利用弹性MapReduce(EMR)启动Hadoop散群并措置大年夜型数据散。Mortar可运转Apache Pig,那是一个构建正在Hadoop上的数据流发言。别的,Mortar借可运转Hadoop]、Pig、Java、Python战Luigi等,让用户专注于研讨科教数据,无需担忧IT根本设施。

· Rackspace: Rackspace Hadoop散群可运转Hadoop Rackspace托管公用办事器,自旋背上Hadoop大众云,或建设本身的私有云。

· Joyent : Joyent Hadoop是一个基于Apache Hadoop项目大年夜数据托管环境云的处理计划。供应数据存储办事获得、阐收战拜候任何数据格局、数据办理办事以措置、监控战运转Hadoop及数据仄台办事安稳、存档战范围分歧的可用性。

· Google: Hadoop正在谷歌的云仄台上利用开源的Apache Hadoop谷歌计算引擎的真拟机。

  SQL-in-Hadoop处理计划

· Apache Hive: Apache Hive劣化了大年夜型数据散漫衍式存储的查询战办理过程。Mapreduce开辟者也能够插进自定义映照器战复本剂。

· Impala: Cloudera的Impala是一个开源的大年夜范围并止措置(MPP)SQL查询引擎,运转正在Apache Hadoop。用户可直接查询存储正在HDFS战Apache HBase的数据,无需停止数据迁徙或转换。

· Shark: Shark是一种与Apache Hive兼容的Spark数据堆栈体系。Shark支撑Hive查询发言、metastore、序列化格局战用户自定义函数。

· Spark SQL: Spark SQL的前身是shark。正在hadoop逝世少过程中,为了给逝世谙RDBMS但又没有睬解MapReduce的足艺职员供应快速上足的东西,hive应运而逝世,是当时独一运转正在hadoop上的SQL-on-Hadoop东西。但是,MapReduce计算过程中大年夜量的中间磁盘降天过程耗益了大年夜量的I/O,降降的运转效力,为了进步SQL-on-Hadoop的效力,大年夜量的SQL-on-Hadoop东西开端产逝世。

· Apache Drill: Apache Drill古晨是Apache的一个孵化项目。供应了分歧数据源特别的查询,包露嵌套数据。受Google Dremel的开导,Drill是专为大年夜型数据散供应可扩展性战查询的才气。该项目是由MapR写成。

· Apache Tajo: Apache Tajo是Apache Hadoop大年夜数据相干的漫衍式数据堆栈体系。Tajo专为低提早、可扩展的坐即查询、正在线散开及ETL(提与-转换-拆载过程)正在大年夜型数据散存储正在HDFS(Hadoop漫衍式文件体系)战其他数据源。

· Presto: Presto框架转眼间从Facebook框架是一个Presto是Facebook开辟的开源漫衍式SQL查询引擎,支撑对肆意级大年夜小的数据源停止快速天交互阐收。

· Phoenix: Phoenix是一款开源的Apache HBase SQL查询引擎,由JDBC驱动法度,可利用SQL查询战办理HBase表。此项目已提交成为Apache孵化器项目。

· Pivotal’s HAWQ: 做为Pivotal大年夜数据散的一部分,HAWQ是一个MPP SQL措置引擎。HAWQ真际上便是一个大年夜范围并止措置工程或MPP,数据库运转正在Hadoop中,位于HDFS的顶部。做为一个单一的体系,它将一整套散开根本设施嵌进体系,那套散开根本设施能够运转战供应Hadoop战HDFS必须供应的统统服从战您能从MPP数据库中获得的范围、机能战可查询服从。

  大年夜数据Lambda架构

Lambda体系架构(LA)供应了一个连络及时数据战Hadoop预先计算的数据环境的异化仄台,以供应一个及时的数据视图。Lambda架构框架尾要包露:

· Twitter’s Summingbird:Twitter的开源Summingbird大年夜数据阐收东西,经由过程整开批措置与流措置去减少它们之间的转换开消。辨别于以往的更快、更细确节拍,Summingbird更重视于流措置与批措置的无缝整开,战编程发言的本逝世化。Summingbird是一个大年夜范围数据措置体系,支撑开辟者以批措置形式(基于Hadoop/MapReduce)或流措置形式(基于Storm)或异化形式(即组开前两种形式)以同一的体例履止代码。

· Lambdoop: Lambdoop是一个Java框架,用于以与Lambda架构分歧的体例开辟大年夜数据利用。Lambda架构的特性是有一个没有成面窜、只能遁减数据的主数据库,并组开了批措置、办事战减快仄分歧的层。

· Value Proposition: 那些数据库的代价正在于其能够带去的商机。

英文本文:Emerging Trends in Big Data Technologies

10

鲜花

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (11 人)

上一篇:浅谈大数据
发表评论

最新评论

引用 asialee 2016-4-22 09:52
大家有大数据传输工具方面的建设吗 ?最近在招投标有意的公司联系我
引用 shijianchangli 2016-4-21 16:39
外行新手,进来学习,大家多多帮忙。

查看全部评论(2)

  • 大数据技术 未来发展前景及趋势分析
  • 待我一袭袈裟,许你相思放下
  • 青春—怒放的生命
  • 印象·上海(一)
  • 商业智能BI的三个层次

相关分类

推荐阅读

更多+
大数据技术 未来发展前景及趋势分析
大数据技术 未来发展前景及趋势分析
流大数据分析· Storm: Apache Storm是一种开源的分布式实
待我一袭袈裟,许你相思放下
待我一袭袈裟,许你相思放下
待我君临天下,许你四海为家;待你君临天下,许谁四海为家
青春—怒放的生命
青春—怒放的生命
  想象中的春季里,应该阳光明媚,而最先感觉到季节变化

手机版|小黑屋| Pentaho | Kettle ( 沪ICP备14044064号 )  

GMT+8, 2017-1-25 01:08 , Processed in 0.145365 second(s), 64 queries .

Powered by Discuz!  uKettle

Copyright © 2014 Comsenz Inc.

返回顶部