当前位置: 首页 > news >正文

网站手机版建设招远网站开发

网站手机版建设,招远网站开发,django 做的网站,做同城网站赚钱01 Talend Open Studio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次#xff0c;其开源软件提供了数据整合功能。其用户包括美国国际集团#xff08;AIG#xff09;、康卡斯特、电子港湾… 01  Talend Open Studio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次其开源软件提供了数据整合功能。其用户包括美国国际集团AIG、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。02 DYSON探码科技自主研发的DYSON智能分析系统可以完整的实现大数据的采集、分析、处理。DYSON智能分析系统专业针对互联网数据抓取、处理、分析挖掘。可以灵活迅速地抓取网页上散乱分布的信息并通过强大的处理功能准确挖掘出所需数据是目前使用人数最多的网页采集工具.03 YARN一种新的Hadoop资源管理器它是一个通用资源管理系统可为上层应用提供统一的资源管理和调度解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。04 Mesos由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池从物理或虚拟机器中抽离了CPU内存存储以及其它计算资源 很容易建立和有效运行具备容错性和弹性的分布式系统。05 Datale由探码科技研发的一款基于Hadoop的大数据平台开发套件RAI大数据应用平台架构。06 Ambari作为Hadoop生态系统的一部分提供了基于Web的直观界面可用于配置、管理和监控Hadoop集群。目前已支持大多数Hadoop组件包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。07 ZooKeeper一个分布式的应用程序协调服务是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目为分布式系统提供了高效可靠且易于使用的协同服务。08 Thrift在2007年facebook提交Apache基金会将Thrift作为一个开源项目对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。09 Chukwa监测大型分布式系统的一个开源数据采集系统建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性可以收集来自大型分布式系统的数据用于监控。它还包括灵活而强大的显示工具用于监控、分析结果。10 Lustre一个大规模的、安全可靠的、具备高可用性的集群文件系统它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统目前可以支持超过10000个节点数以PB的数据存储量。11 HDFSHadoop Distributed File System简称HDFS是一个分布式文件系统。HDFS是一个高度容错性的系统适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问非常适合大规模数据集上的应用。12 GlusterFS一个集群的文件系统支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。13 Alluxio前身是Tachyon是以内存为中心的分布式文件系统拥有高性能和容错能力能够为集群框架如Spark、MapReduce提供可靠的内存级速度的文件共享服务。14 Ceph新一代开源分布式文件系统主要目标是设计成基于POSIX的没有单点故障的分布式文件系统提高数据的容错性并实现无缝的复制。15 PVFS一个高性能、开源的并行文件系统主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计它的模块化设计结构可轻松的添加新的硬件和算法支持。16 QFSQuantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。17  Logstash一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理提供了Web接口用于查询和统计。18 ScribeScribe是Facebook开源的日志收集系统它能够从各种日志源上收集日志存储到一个中央存储系统可以是NFS分布式文件系统等上以便于进行集中统计分析处理。19 FlumeCloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方用于收集数据。同时Flume支持对数据进行简单处理并写入各种数据接受方可定制。20 RabbitMQ一个受欢迎的消息代理系统通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台。21 ActiveMQApache出品号称“最流行的最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快支持多种跨语言的客户端和协议其企业集成模式和许多先进的功能易于使用是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。22 Kafka一种高吞吐量的分布式发布订阅消息系统它可以处理消费者规模网站中的所有动作流数据目前已成为大数据系统在异步和分布式消息之间的最佳选择。23 Spark一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点但不同的是Job的中间输出结果可以保存在内存中从而不再需要读写HDFS因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用也可以独立使用。24 Kinesis可以构建用于处理或分析流数据的自定义应用程序来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。25  Hadoop一个开源框架适合运行在通用硬件支持用简单程序模型分布式处理跨集群大数据集支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号它不断壮大起来已成为一个完整的生态系统拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩能够为你的数据存储项目提供所需的YARN、HDFS和基础架构并且运行主要的大数据服务和应用程序。26 Spark Streaming实现微批处理目标是很方便的建立可扩展、容错的流应用支持Java、Scala和Python和Spark无缝集成。Spark Streaming可以读取数据HDFSFlumeKafkaTwitter和ZeroMQ也可以读取自定义数据。27 Trident是对Storm的更高一层的抽象除了提供一套简单易用的流数据处理API之外它以batch(一组tuples)为单位进行处理这样一来可以使得一些处理更简单和高效。28 Flink于今年跻身Apache顶级开源项目与HDFS完全兼容。Flink提供了基于Java和Scala的API是一个高效、分布式的通用大数据分析引擎。更主要的是Flink支持增量迭代计算使得系统可以快速地处理数据密集型、迭代的任务。29 Samza出自于LinkedIn构建在Kafka之上的分布式流计算框架是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。30 StormStorm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单显著地降低了实时处理的难度也是当下最人气的流计算框架之一。与其他计算框架相比Storm最大的优点是毫秒级低延时。31 Yahoo S4 Simple Scalable Streaming System是一个分布式流计算平台具备通用、分布式、可扩展的、容错、可插拔等特点程序员可以很容易地开发处理连续无边界数据流continuous unbounded streams of data的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白并提供高性能计算平台来解决并发处理系统的复杂度。32 HaLoop是一个Hadoop MapReduce框架的修改版本其目标是为了高效支持 迭代递归数据 分析任务如PageRankHITsK-meanssssp等。33 Presto是一个开源的分布式SQL查询引擎适用于交互式分析查询可对250PB以上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。34 Drill于2012年8月份由Apache推出让用户可以使用基于SQL的查询查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询支持一系列广泛的数据库包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。35 Phoenix是一个Java中间层可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan并编排执行以生成标准的JDBC结果集。36 Pig是一种编程语言它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本 类似我们通常熟悉的SQL语句。37 Hive是基于Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张数据库表并提供简单的sql查询功能可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低可以通过类SQL语句快速实现简单的MapReduce统计不必开发专门的MapReduce应用十分适合数据仓库的统计分析。38 SparkSQL前身是SharkSparkSQL抛弃原有Shark的代码并汲取了一些优点如内存列存储In-Memory Columnar Storage、Hive兼容性等。由于摆脱了对Hive的依赖性SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。39 Stinger原来叫Tez是下一代Hive由Hortonworks主导开发运行在YARN上的DAG计算框架。某些测试下Stinger能提升10倍左右的性能同时会让Hive支持更多的SQL。40 Tajo目的是在HDFS之上构建一个可靠的、支持关系型数据的分布式数据仓库系统它的重点是提供低延迟、可扩展的ad-hoc查询和在线数据聚集以及为更传统的ETL提供工具。41 ImpalaCloudera 声称基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。42  Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎基于RESTful web接口。Elasticsearch是用Java开发的并作为Apache许可条款下的开放源码发布是当前流行的企业级搜索引擎。设计用于云计算中能够达到实时搜索、稳定、可靠、快速、安装使用方便。43 Solr基于Apache Lucene是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、ATT、Instagram、Netflix、彭博社和Travelocity。44 Shark即Hive on Spark本质上是通过Hive的HQL解析把HQL翻译成Spark上的RDD操作然后通过Hive的metadata获取数据库里的表信息实际HDFS上的数据和文件会由Shark获取并放到Spark上运算。Shark的特点就是快完全兼容Hive且可以在shell模式下使用rdd2sql()这样的API把HQL得到的结果集继续在scala环境下运算支持自己编写简单的机器学习或简单分析处理函数对HQL结果进一步分析计算。45 Lucene基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称它在现代硬件上每小时能够检索超过150GB的数据它拥有强大而高效的搜索算法。46 Terracotta声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”支持简单、可扩展、实时消息声称在190个国家拥有210万开发人员全球1000家企业部署了其软件。47  Ignite是一种高性能、整合式、分布式的内存中平台可用于对大规模数据集执行实时计算和处理速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。48 GemFirePivotal宣布它将开放其大数据套件关键组件的源代码其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案以便在“Geode”的名下管理GemFire数据库的核心引擎。49  GridGain由Apache Ignite驱动的GridGrain提供内存中数据结构用于迅速处理大数据还提供基于同一技术的Hadoop加速器。50 MongoDB是一个基于分布式文件存储的数据库。由C语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案。介于关系数据库和非关系数据库之间的开源产品是非关系数据库当中功能最丰富、最像关系数据库的产品。来源艾斯尼勒
http://www.sadfv.cn/news/3212/

相关文章:

  • 都匀住房和城乡建设局网站做芯片哪个网站推广
  • 安徽省建设监理协会新网站制作网页的模板的网站
  • 滨州做网站多少钱做网站是什么职业