当前位置: 首页 > news >正文

迎访问中国建设银行网站-怎么做网页表格

迎访问中国建设银行网站-,怎么做网页表格,传奇霸业手游官网,镇江网页设计工作室1#xff0c;大数据介绍 定义 数据指的是#xff1a;一种可以被鉴别的、对客观事件进行记录的符号#xff0c;除了可以是最简单的 数字外#xff0c;也可以是各类符号、文字、图像、声音等。 通俗地说#xff0c;数据就是对人类的行为及发生事件的一种记录。 存在的价值…1大数据介绍 定义 数据指的是一种可以被鉴别的、对客观事件进行记录的符号除了可以是最简单的 数字外也可以是各类符号、文字、图像、声音等。 通俗地说数据就是对人类的行为及发生事件的一种记录。 存在的价值 数据的背后都会隐藏着巨大的商业价值而有了丰富的数据支撑也可以让我们更好 的了解事物在现实世界的运行规律。 当下时代已经是数据的时代数据非常重要并且蕴含巨大的价值。 大数据技术栈是对超大规模的海量数据进行处理并挖掘出数据背后价值的技术体系。 什么是大数据 ①大数据的出现本质上是为了解决海量数据的处 理难题。 即使用分布式技术完成海量数据的处理得到数据背后蕴含的价值。 狭义的技术思维的 ②1海量的数据 数字时代人人联网日常活动产生的数据记录是海量的背后蕴含的价值也是巨大 的。 2基础设施 大数据在技术上是数字化时代的基础设施。数字化时代的发展离不开大数据技术的 支撑。 3生活 警务、政务、工业、电商、金融、能源、物流、通讯、科研、教育等等大数据甚至已经渗入了生活的方方面面。 狭义上大数据是一类技术栈是一种用来处理海量数据的软件技术体系。 广义上大数据是数字化时代、信息化时代的基础技术支撑以数据为基础为生活赋能 ③大数据的特点及应用 Volume数据体量大采集数据量大、存储数据量大、计算数据量大、TB/PB级别起步 Variety种类、来源多样化结构化、半结构化、非结构化、来源日志文本、图片、音频、视频 Value低价值密度信息海量但是价值密度低、深度复杂挖掘分析需要机器学习参与 Velocity速度快数据增长速度快、获取数据速度快、数据处理速度快 Veracity数据的质量数据的准确性、数据的可信赖度。 大数据的应用场景 1电商方面 精准广告位通过对用户的浏览行为、点击行为等进行大数据采集分析挖掘用户的二层三层喜欢扩大产出。 2传媒方面 猜你喜欢通过对受众人群进行大数据分析结合对应算法对受众喜欢度进行交互推荐。 3金融方面 在投资理财中通过对个人的信用评估、风险承担能力评估集合众多理财产品、推荐相应的投资理财产品。 4交通方面 目前交通的大数据应用主要在两个方面预测车流量并进行路线规划利用大数据来实现即时信号灯调度提高已有线路通行能力。 5电信方面 在智慧营业厅里通过对用户当前的行为习惯、偏好节假日的相应数据变化调整自身业务结构做到按需分配。 6安防方面 通过人脸识别匹配存储用户数据结合人工智能分析及甄别用户行为预防犯罪行为的发生。 2分布式 定义分布式是指将多台服务器集中在一起每台服务器都实现总体中的不同业务做不同的事情 理解单机模式一台计算机完成所有事。可理解为一个餐厅的厨房只有一个人这个人既要买菜、又要切菜、还要炒菜效率很低 分布式模式多台电脑完成不同事。可理解为一个餐厅的厨房有三个人一个人买菜、一个人切菜、一个人炒菜效率提高了 1分布式存储 大型网站常常需要处理海量数据单台计算机往往无法提供足够的内存空间。此时可以对这些数据进行分布式存储比如Apache Hadoop HDFS。 2分布式计算 b分布式计算 随着计算技术的发展有些应用需要非常巨大的计算能力才能完成如果采用集中式计算需要耗费相当长的时间来完成。 分布式计算将该应用分解成各个小部分并分配给多台计算机进行处理。 这样可以节约整体计算时间大大提高计算效率比如 Apache Hadoop MapReduce。 3集群 定义集群指的是多台不同的服务器中部署有相同应用或服务模块。当在多台不同的服务器中部署有相同应用或服务模块时就构成了一个集群。集群往往需要通过负载均衡来对外提供服务。 【负载均衡就是一种计算机网络技术用来在计算机集群、网络连接、CPU、磁盘或其他资源中分配负载以达到最佳化资源使用、最大化吞吐率、最小化响应时间同时避免过载的目的。】 1思考比如要让众多的服务器一起工作该如何保证高效且不出问题呢 答在大数据体系中分布式的调度主要有两类架构模式去中心化模式、中心化模式。 1去中心化模式没有明确的中心服务器而它们之间基于特定规则进行同步协 调。 2中心化模式以某个服务器为中心协调调度其他服务器一起工作。 我们学习的Hadoop框架就是一个典型的主从模式中心化模式架构的大数据技 术框架。 2分布式和集群的区别 分布式多台服务器做着不同的任务合力完成一件事情 集群多台服务器做着相同的任务完成一件事。 3,Hadoop框架概论 存在的意义大数据的核心工作其实就是从海量的高增长、多类别、低信息密度的数据中挖 掘出高质量的结果。 工作分类 1数据存储可以妥善存储海量的待处理数据 2数据计算可以从海量数据中计算出背后的价值 3数据传输协助在各个环节中完成海量数据的传输。 1数据存储 [A] Apache Hadoop - HDFS Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技 术。 [B]Apache Hbase Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术而HBase 是基于HDFS基础上构建的。 [C] Apache Kudu Apache Kudu同样为大数据体系中使用较多的分布式存储引擎。 [D] 云平台存储组件 除此以外各大云平台厂商也有相应的大数据存储组件比如阿里云的OSS、 UCloud的US3、AWS的S3、金山云的KS3等等。 2数据计算 [A] Apache Hadoop - MapReduce Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献。 [B] Apache Hive Apache Hive是一款以SQL为主要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术。Apache Hive至今仍活跃在大数据一线被许多公司使用。 [C] Apache Spark Apache Spark是目前全球范围内最火热的分布式内存计算引擎目前Spark也是大数据体系中的明星计算产品。 [D] Apache Flink Apache Flink同样也是一款明星级的大数据分布式内存计算引擎侧重于流批一体化处理。特别是在实时计算流计算领域占据了大多数的国内市场。 3,数据传输 [A] Apache Sqoop Apache Sqoop是一款ETL工具可以协助大数据体系和关系型数据库之间进行数据传输 [B] Apache Flume Apache Flume是一款流式数据采集工具可以从非常多的数据源中完成数据采集传输的任务。 [C] Apache Kafka Apache Kafka是一款分布式的消息系统可以完成海量规模的数据传输工作。目前Kafka在大数据领域也是明星产品。 [D] Apache Pulsar Apache Pulsar同样是一款分布式的消息系统。在大数据领域同样有非常多的使用者。 3.1Hadoop 介绍 背景Hadoop是一个用Java语言实现存储、计算大规模数据的开源软件框架目前属于 Apache旗下。Hadoop是Apache Lucene创始人Doug Cutting道·卡廷创建的最早起源一个 Nutch项目。 1Hadoop解释 Hadoop也分狭义与广义解释。 1狭义解释Hadoop指Apache这款开源框架它的核心组件有 aHDFS分布式文件系统解决海量数据存储 bMAPREDUCE分布式运算编程框架解决海量数据计算 cYARN作业调度和集群资源管理的框架解决资源任务调度。 Hadoop是一个集合了存储、计算、资源调度为一体的大数据分布式框架。 2广义解释 广义上来说Hadoop通常是指一个更广泛的概念——Hadoop生态圈也就是说Hadoop是一个大数据生态圈整体。 使用Hadoop框架做大数据开发优势 1扩容能力Hadoop是在可用的计算机集群间分配数据并完成计算任务的这些集群可用方便的扩展到数以千计的节点中 2成本低Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据以至于成本很低 3高效率通过并发数据Hadoop可以在节点之间动态并行的移动数据使得速度非常快 4可靠性能自动维护数据的多份复制并且在任务失败后能自动地重新部署redeploy计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。 3.2Hadoop架构 1HDFS分布式文件系统 2MapReduce分布式计算 3Yarn资源调度 1HDFS分布式文件系统 HDFS全称是Hadoop Distributed File System是一个分布式文件系统。 HDFS有三个服务 a NameNodeNN处理客户端读写请求存储文件的元数据以及每个文件 的块列表、数据块DataNode等 bDataNodeDN存储实际的数据块并执行数据块的读写操作 cSecondary NameNode2NN每隔一段时间后会对NameNode做元数据 备份 NameNode集群的主节点主要用于管理集群中的各种数据 SecondaryNameNode主要能用于Hadoop元数据信息的辅助管理 DataNode集群的从节点主要用于存储集群当中的各种数据。 2MapReduce分布式计算 MapReduce将计算过程分为两个阶段分别是Map和Reduce aMap阶段并行处理输入的数据 bReduce阶段对Map结果进行汇总处理。 3Yarn资源调度 YARN的全称是Yet Another Resource Negotiator另一种资源协调者是Hadoop的资源管理器。 由四个服务组成分别是 aResourceManagerRM资源管理器集群资源cpu内存等管理者 bNodeManagerDM节点管理器单个节点资源的管理者 cApplicationMasterAM任务管理器单个任务运行的管理者 dClient Application客户端提交的应用程序。 存在意义用于接收用户的计算请求任务并负责集群的资源分配 4Hadoop入门使用 集群负责海量数据的存储集群中的角色主要有 aNameNode主节点 bDataNode从节点 cSecondaryNameNode辅助节点 YARN集群负责海量数据运算的资源调度集群中的角色主要有 aResourceManager接收请求任务负责资源调度 bNodeManager负责处理主节点分配的任务 1当要搭建集群时的常见方式 1单机模式 在单机模式下一个机器上同时运行着HDFS集群、YARN集群通常仅用于学习和调试使用。 2集群模式 在集群模式下主要用于生产环境部署需要在N台主机上搭建及组成一个Hadoop集群。 集群模式中的主节点和从节点会分开部署在不同的机器上。 启动集群 a启动HDFS和yarn命令: start-all.sh b停止HDFS和yarn命令: stop-all.sh c需要单独启动node1下的mr历史任务服务器: mapred --daemon start historyserver D查看进程信息 jps a查看HDFS页面 启动了NameNode后端口号是9870连接URLhttp://node1:9870/ b查看YARN页面 启动了ResourceManager后端口号是8088连接URLhttp://node1:8088/ c查看已经Finished的MapReduce运行日志页面 启动了historyserver后端口号是19888连接URLhttp://node1:19888 评估圆周率π案例 在Hadoop框架的安装包中官方提供了MapReduce程序的examples示例以便开发者快速体验分布式计算比如计算圆周率、统计词频结果等。 操作步骤 1先通过cd命令切换当前目录到指定文件夹 命令cd /export/server/Hadoop-3.3.0/share/Hadoop/mapreduce 2直接运行命令Hadoop jar Hadoop-mapreduce-examples-3.3.0.jar pi x y 参数解释#第1个参数pi表示MapReduce程序执行圆周率计算 第2个参数x用于指定map阶段运行的任务次数即并发度比如x10 第3个参数y用于指定每个map任务取样的个数比如y50 单词词频统计案例 在词频统计文本数据过程中统计相同单词出现的总次数。 步骤1一样先通过cd命令切换当前目录到指定文件夹 命令cd /export/server/Hadoop-3.3.0/share/Hadoop/mapreduce 2运行命令前准备 在HDFS界面新建一个input文件夹并上传一个txt文件到文件夹下用于被统计词频 并且要保证output文件夹下没有文件不然会报错 3运行命令hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output HDFS文件系统 HDFSHadoop Distribute File System指的是Hadoop分布式文件系统是Hadoop核心组件之一用于提供分布式存储服务。 HDFS解决的问题是大数据存储它们是横跨在多台计算机上的存储系统为存储和处理超大规模数据提供扩展能力。 使用场景非常适于存储大型数据比如TB 和 PBHDFS可以使用多台计算机存储文件并提供统一的访问接口像是访问一个普通文件系统来使用。 1HDFS通常也具有如下特性 1HDFS文件系统可存储超大文件时效性稍差 2HDFS具有硬件故障检测和自动快速恢复功能 3HDFS为数据存储提供很强的扩展能力 4HDFS存储一般为一次写入多次读取只支持追加写入不支持随机修改 5HDFS可在普通廉价的机器上运行。 HDFS架构 1HDFS特性有 1HDFS是一个文件系统用于存储文件可以通过统一的目录来定位文件 2HDFS是分布式的由很多服务器联合起来实现其功能集群中的服务器有各自的 角色 3HDFS内部采用了Master/Slave架构[即主从架构]。 2HDFS有四个基本组件 1HDFS Client 2NameNode 3DataNode 4Secondary NameNode 1HDFS Client客户端 客户端主要负责文件切分。文件上传HDFS的时候Client将文件切分成一个一个的 block然后进行存储。 a与NameNode交互获取文件的位置信息 b与DataNode交互读取或者写入数据 cClient 提供一些命令来管理和访问HDFS比如启动或者关闭HDFS。 2NameNode主节点Master管理者 NameNode用于管理HDFS元数据文件路径文件的大小文件的名字文件权限文 件的block切片信息….。 a配置副本策略 b处理客户端读写请求。 3DataNode从节点Slave 当NameNode下达命令后DataNode来执行实际的操作。 a存储实际的数据块 b执行数据块的读/写操作 c定时向NameNode汇报block信息。 4Secondary NameNode辅助节点 Secondary NameNode用于辅助NameNode并分担其工作量。在紧急情况下可辅 助恢复NameNode。 注意Secondary NameNode并非NameNode的备份。当NameNode挂掉的时候它也 并不能马上替换NameNode并提供服务。 HDFS的Shell命令入门 1两种方式 hadoop fs # 既可以操作HDFS也可以操作本地系统 hdfs dfs # 只能操作HDFS系统, 推荐使用 2应用示例 应用例子: hdfs dfs -ls / # 显示文件列表 hdfs dfs –ls -R / # 递归显示文件列表 hdfs dfs -mkdir /dir1 # 创建目录 hdfs dfs -mkdir -p /aaa/bbb/ccc # 递归创建目录 hdfs dfs -touch /hadoop/1.txt # 在/hadoop下创建1.txt hdfs dfs -help 指令 # 比如ls 查看帮助信息 3常用命令 1-put 上传文件 hdfs dfs -put /本地文件路径 /hdfs文件路径 hdfs dfs -put /root/python.txt /itcast 2-get 下载文件 hdfs dfs -get /hdfs文件路径 /本地文件路径 hdfs dfs -get /itcast/aa.txt /root/ 3-mv 移动文件或目录(移动到空文件或文件夹下等于重命名) hdfs dfs -mv /路径 /移动到的路径 hdfs dfs -mv /Hadoop /itcast/ 4-rm 删除目录 hdfs dfs -rm [-r] /目录/文件名 # 注意: 当删除目录时, 要加上-r hdfs dfs -rm /hadoop/1.txt 5-cp 复制文件 hdfs dfs -cp /要复制的文件或路径 /复制到的路径 hdfs dfs -cp /itcast/aa.txt /itcast/Hadoop 6-cat 查看文件内容 hdfs dfs -cat /文件 hdfs dfs -cat /itcast/Hadoop/aa.txt
http://www.sadfv.cn/news/162906/

相关文章:

  • 宿迁网站建设SEO优化营销企业安全文化建设导则最新版
  • 企业建设网站没有服务器首页定制
  • 网站降权不更新文章可以吗网站改版方案
  • 做高端网站公司网站从哪些方面来做
  • 婚庆公司包含哪些项目网站建设优化及推广
  • php网站接入支付宝wordpress添加广告位
  • html5大气网站企业网站建设大概多少钱
  • 石家庄个人建站网站策划360官网
  • 江夏区建设局网站网站排名站长之家
  • 外国做图网站如何免费制作手机app
  • 有什么办法做自己的网站如何制作网站视频
  • 网站源码程序修改卓成建设集团有限公司网站
  • 网站开发和网页上传的说法哈尔滨最新信息
  • 自己做众筹网站西安网站排名优化
  • 童装网站建设乐山电商网站开发
  • 网站建设上qq图标去除建设购物网站的方案
  • 网站前端与后台必须同时做吗鞍山便民信息平台
  • 上海网站建设海淘科技节庆时候的网站是怎么做的
  • 域名申请好怎么做网站wordpress100万数据
  • 建设银行的网站为什么登不上个人网站的建设流程
  • 做电脑网站手机能显示不出来怎么办wordpress 七牛 上传
  • 中国商检局做备案网站网页制作的公司选时代创信
  • 文具网站建设合同书唐山自助建站模板
  • 浙江门户网站建设公司中国 网站服务器 租金
  • 建站技巧wordpress更换网站
  • 济宁 网站建设哪个网站做员工增员
  • 学历网站怎么做怎么建设网站运城
  • 手机网站优化技巧建设公司和建筑公司哪个好
  • wordpress dede搜索引擎优化排名seo
  • 网站建设及维护合同网站开发项目管理文档