网站建设网站需要什么软件,成都比较好的网站建设公司,网站建设导向,国外素材设计欣赏网站随着业务对大数据分析的需求日益增长#xff0c;非结构化数据的管理逐 渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件#xff0c;较之结构化数据#xff0c;其更难标准化和理解#xff0c;因此在存储、检… 随着业务对大数据分析的需求日益增长非结构化数据的管理逐 渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件较之结构化数据其更难标准化和理解因此在存储、检索以及消费使用时需要智能化的IT技术与之匹配。华为的非结构化数据包括文档邮件、 Excel、Word、PPT、图片、音频、视频等。 相较于结构化数据非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外还需对数据内容的客观理解进行管理如标签、相似性检索、相似性连接等以便于用户搜索和消费使用。 因此非结构化数据的治理核心是对其基本特征与内容 进行提取并通过元数据落地来开展的。 非结构化数据的管理模型如图所示。 非结构化数据的元数据可以分为基本特征类客观和内容增强类主观两类。 1基本特征类参考都柏林十五个核心元数据实现对非结构化数据对象的规范化定义如标题、格式、来源等。 2内容增强类基于非结构化数据内容的上下文语境解析目标文件对象的数据内容加深对目标对象的客观理解如标签、相似性检索、相似性连接等。 非结构化数据的元数据管理采用统分统管的原则即基本特征类属性由公司进行统一管理内容增强类属性由相关承担数据分析工作的项目组自行设计但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。 元数据管理平台通过“基本特征类元数据流”和“内容增强类元数据流”两条线来实现对非结构化数据的元数据管理和消费使用。 1基本特征类元数据流 元数据管理平台基于收集到的各类非结构化数据源信息自动完成基础特征类元数据的采集工作按照管理规范和要求通过标准化、整合后存储在元数据管理平台中并在完成元数据过滤、排序后将结果在元数据报告中进行可视化展示以供用户消费使用。 2内容增强类元数据流 基于元数据管理平台中基本特征类元数据的信息各数据分析项目组解析目标非结构化对象的数据内容并将分析结果通过元数据采集、元数据标准化整合后统一存放在元数据管理平台中以供用户一并消费使用增强用户体验。 非结构化数据的处理过程如图所示。