当前位置：首页 > news >正文

网站建设的项目体会合肥卫来

news 2025/11/17 4:31:03

网站建设的项目体会,合肥卫来,网页开发项目,wordpress获取当前目录父目录id“ Lambda体系结构是一种数据处理体系结构#xff0c;旨在通过利用批处理和流处理方法来处理大量数据。这种体系结构方法试图通过使用批处理提供批处理数据的全面而准确的视图#xff0c;同时使用实时流处理提供在线数据的视图来平衡延迟 #xff0c; 吞吐量和容错能力。 … “ Lambda体系结构是一种数据处理体系结构旨在通过利用批处理和流处理方法来处理大量数据。这种体系结构方法试图通过使用批处理提供批处理数据的全面而准确的视图同时使用实时流处理提供在线数据的视图来平衡延迟吞吐量和容错能力。在演示之前可以将两个视图输出合并。 lambda体系结构的兴起与大数据的增长实时分析以及减轻地图缩减延迟的驱动力有关。” –维基百科以前我已经写了一些博客涉及许多用例这些用例是使用Oracle Data IntegratorODI在MapR分发之上进行批处理以及使用Oracle GoldenGateOGG将事务数据流式传输到MapR Streams和其他Hadoop组件中。最新的ODI12.2.1.2.6结合了这两种产品以完全适合lambda架构同时具有许多新的强大功能包括能够将Kafka流作为ODI本身的源和目标进行处理。通过简化我们在一种产品下以相同逻辑设计处理和处理批处理和快速数据的方式此功能对已经拥有或计划拥有lambda架构的任何人都具有巨大的优势。现在如果我们将OGG流传输功能和ODI批处理/流传输功能结合在一起则可能性是无限的。在本博客中我将向您展示如何使用Spark Streaming在Oracle Data Integrator上配置MapR流aka Kafka以创建真正的lambda体系结构补充批处理和服务层的快速层。在本文中我将跳过ODI的“赞扬和称赞”部分但我只想强调一点自从ODI首次发布以来为该博客设计的映射就像您将设计的所有其他映射一样都是您可以直接在Hadoop / Spark集群上以100的本机代码运行而无需编写零行代码也不必担心如何以及在何处编码。我已经在MapR上完成了此操作因此我可以制作“两只鸟一块石头”。向您展示MapR Streams步骤和Kafka。由于两者在概念或API实现上并没有太大差异因此如果您使用的是Kafka则可以轻松地应用相同的步骤。如果您不熟悉MapR Streams和/或Kafka概念建议您花一些时间来阅读它们。以下内容假定您知道什么是MapR Streams和Kafka当然还有ODI。否则您仍然会对可能的功能有个好主意。准备工作 MapR Streamsaka Kafka相关的准备工作显然我们需要创建MapR Streams路径和主题。与Kafka不同MapR通过“ maprcli”命令行实用程序使用其自己的API来创建和定义主题。因此如果您使用商品Kafka则此步骤将略有不同。 Web上有很多有关如何创建和配置Kafka主题和服务器的示例因此您并不孤单。为了进行此演示我创建了一个路径和该路径下的两个主题。我们将让ODI从其中一个主题注册进行消费并生成另一个主题registrations2。这样您将看到它如何通过ODI起作用。创建一个名为“ users-stream”的MapR Streams路径和一个名为“ registrations”的主题在我之前定义的相同路径上创建第二个主题“ registrations2” Hadoop相关准备由于我使用的是已安装并正在运行MapR的个人预配置VM因此此处没有很多准备工作。但是需要一些步骤才能成功完成ODI映射。如果您想知道我如何使ODI可以用于MapR发行版则可以参考此博客文章。 Spark我已经在Spark 1.6.1上进行了测试您也应该这样做。至少不要转到任何较低版本。此外您需要针对Spark构建具有特定的标签版本。我从标签1605这是MapR发布约定开始测试但是我的工作失败了。究其原因我发现PySpark库不是MapR Streams API的最新版本。他们可以使用商品Kafka但不能使用MapR。这是我使用过的RPM的链接。 Spark日志记录在spark路径下有一个“ config”文件夹其中包含不同的配置文件。如果需要的话我们只对其中一项感兴趣。文件名为“ log4j.properties”。您需要确保将“ rootCategory”参数设置为INFO否则当您运行提交到Spark的任何ODI映射时都会出现异常 Hadoop凭证存储在提交的任何作业中需要某些密码时ODI都将引用Hadoop凭证存储。这样我们就不会在参数/属性文件或代码本身中包含任何明确的密码。在此演示中我们将在某个时候使用MySQL因此我需要创建一个存储并为MySQL密码添加别名。首先您需要确保在core-site.xml中有一个用于凭证存储的条目然后实际上为密码值创建一个别名上一张图片是我的“ site-core.xml”的摘要向您显示了我添加的凭据存储。下一步将是验证商店是否存在然后为密码值创建别名更改之后即使在编辑core-site.xml之后也无需重新启动任何hadoop组件。注意如果您遇到“操作系统异常”例如137请确保您有足够的可用内存。 ODI相关准备您将在ODI中进行的常规准备工作。我将在此博客中显示相关内容。 Hadoop数据服务器以下配置特定于MapR。如果使用其他发行版则需要输入相关的端口号和路径 Spark-Python数据服务器在此ODI版本12.2.1.2.6中如果要使用Spark Streaming和常规Spark服务器/群集则需要创建多个Spark数据服务器。在此演示中我仅创建了Spark Streaming服务器并将其称为Spark-Async。您需要将“主群集”值更改为实际使用的值yarn-client或yarn-cluster然后选择我们先前创建的Hadoop DataServer。现在这里配置的有趣部分是Spark-Async数据服务器的属性我已经强调了您需要注意的最重要的方面。之所以使用ASYNC是因为我们将使用Spark Streaming。其余属性与性能有关。 Kafka数据服务器在这里我们将定义MapR Streams数据服务器元数据代理具有一个“虚拟”地址仅符合Kafka API。 MapR Streams客户端将为您提供连接到MapR Streams所需的服务。您可能无法在此处测试数据服务器因为在MapR上没有运行这样的Kafka服务器。因此请安全地忽略此处的测试连接因为它将失败这样就可以了。对于属性您需要定义以下内容您需要手动定义“ key.deserializer”和“ value.deserializer”。 MapR Streams都需要这两者如果未定义作业作业将失败。 ODI映射设计我已经在这里进行了测试涵盖了五个用例。但是我将只完整介绍一个并突出显示其他内容以免您阅读多余和常识性的步骤。 1MapR StreamsKafka Spark Streaming MapR StreamsKafka 在此映射中我们将从先前创建的主题中读取流数据应用一些功能简单的功能然后将结果生成到另一个主题。这是映射的逻辑设计我通过复制已经为MySQL反向工程设计的模型之一结构相同定义了MapR_Streams_Registrations1模型但是在这种情况下当然选择的技术是Kafka。您将能够选择流数据的格式AvroJSONParquet或Delimited 物理设计如下所示 SOURCE_GROUP这是我们的MapR Streams主题“注册” TRANS_GROUP这是我们的Spark异步服务器 TARGET_GROUP这是我们的MapR Streams主题“ registrations2” 物理实现的属性为您需要选择暂存位置作为Spark Async并启用“流式传输”。要将主题注册中的流数据加载到Spark流中我们需要选择合适的LKM即LKM Kafka到Spark 然后从Spark Streaming加载到MapR Stream目标主题registrations2我们需要选择LKM Spark到Kafka 2MapR-FSHDFS Spark Streaming MapR StreamsKafka 除了使用的知识模块之外我在这里不会向您展示太多。要将MapR-FSHDFS加载到Spark Streaming我使用了LKM File来Spark 为了从Spark Streaming加载到MapR Streams我像以前的映射一样使用LKM Spark到Kafka。注意LKM File to Spark将充当一个流一个文件流显然。 ODI将仅接收任何更新/新文件而不是静态文件。 3MapR StreamsKafka Spark Streaming MySQL 要将MapR StreamsKafka加载到Spark Streaming就像在第一个映射中一样我使用了LKM Kafka到Spark。然后从Spark Streaming加载到MySQL我使用了LKM Spark到SQL 4MapR流Kafka Spark流 MapR-FSHDFS 为了从MapR流加载到Spark流我像以前一样使用LKM Kafka到Spark然后从Spark Stream加载到MapR-FSHDFS我已经使用LKM Spark到File 5MapR StreamsKafka和Oracle DB Spark Streaming MySQL 这是另一个有趣的用例您实际上可以在现场将Kafka流与SQL源一起加入。这仅当前适用于查找组件请注意驱动程序源必须是Kafka在我们的示例中为MapR流而查找源必须是SQL数据库。我使用了与以前的映射几乎相同的LKM从LKM SQL到Spark从LKM Kafka到Spark和从LKM Spark到SQL。行刑我将仅向您展示第一个用例的执行步骤即MapR StreamsKafka Spark Streaming MapR StreamsKafka。为了模拟这种情况我创建了一个Kafka生产者控制台和另一个Kafka消费者控制台以便可以监视结果。查看下面的生产者我粘贴了一些记录我已经突出显示了其中一个URL以确保您注意到它是小写的。等待几秒钟Spark将处理这些消息并将其发送到目标MapR Streams主题请注意所有URL均大写。成功通过映射结果与预期的一样。因为它们很简单所以我不会为它们显示测试步骤。这里的想法是向您展示如何使用MapR StreamsKafka配置ODI。最后的话值得一提的是在执行任何映射时您都可以钻取日志并查看正在发生的事情生成的代码等。此外您将获得指向工作历史URL的链接以在Spark UI上访问它打开链接将带我们到Spark UI 如果要控制流作业可以生存多长时间则需要增加Spark-Async数据服务器的“ spark.streaming.timeout”属性或从映射配置本身覆盖它。您可能还需要创建一个ODI程序包该程序包具有一个循环和其他有用的组件来满足您的业务需求。结论 ODI可以处理lambda架构中的两个层批处理层和快速层。这不仅是ODI在其非常长的综合功能列表中添加的一项重要功能而且还将提高从一个统一易于使用的界面设计数据管道的生产率和效率。显然ODI可以像使用商品Kafka一样轻松地与MapR Streams一起使用这要感谢MapR的二进制文件与Kafka API兼容以及ODI不需要依赖于一个框架。这可以确保您ODI是真正的开放式模块化E-LT工具与其他工具不同。其他一些相关职位 Oracle Data Integrator和MapR融合数据平台请检查使用Oracle GoldenGate将事务数据流式传输到MapR流中使用Oracle GoldenGate进行MapR-FS实时事务数据提取带有ODI的逆向工程师MapR-DB 免责声明这里表达的思想实践和观点仅是作者的观点不一定反映Oracle的观点。翻译自: https://www.javacodegeeks.com/2017/02/perfecting-lambda-architecture-oracle-data-integrator-kafka-mapr-streams.html

查看全文

http://www.sadfv.cn/news/154513/