当前位置: 首页 > news >正文

新钥匙网站建设创意网名女

新钥匙网站建设,创意网名女,网游开发软件,网站页面架构来源#xff1a;国家自然科学基金委员会微信公号 孟小峰 博士#xff0c;中国人民大学教授#xff0c;博士生导师#xff0c;CCF会士。主要研究方向为数据库理论与系统、大数据管理系统、大数据隐私保护、大数据融合与智能、大数据实时分析、社会计算等。摘 要随着全球各科… 来源国家自然科学基金委员会微信公号 孟小峰 博士中国人民大学教授博士生导师CCF会士。主要研究方向为数据库理论与系统、大数据管理系统、大数据隐私保护、大数据融合与智能、大数据实时分析、社会计算等。摘 要随着全球各科学领域大科学装置的出现科学发现进入了大数据时代。科学发现无法完全依赖于专家经验从海量数据中发现稀有科学事件大量历史数据无法有效利用同时愈发突出实时性和高精度科学事件的模式具有稀有性通用的算法并不适用于科学领域由此科学数据智能发现问题应运而生。科学数据智能发现旨在使用数据智能的方法加速科学事件的发现。然而科学数据智能发现缺少整体框架设计具体表现为缺乏科学数据的一体化分析体系和异构科学数据高效知识融合机制并且海量历史数据长期存储及挖掘低效。本文从数据管理的角度提出科学数据智能发现与管理框架和相关挑战以期推动科学发现的进步。关键词 科学数据数据智能数据管理智能发现知识融合长期存储科学数据是指人类在科学活动中经由科学装置的不断发展而产生通过实验、观测、探测、调查、挖掘等途径获取的用于研究活动的原始数据及衍生数据这些积累的数据能够反映客观事物的本质、特征、变化规律。随着科学观测装置、观测技术的发展科学数据已进入信息丰富的大数据时代[1]。天文学、遥感科学、高能物理学等领域都面临着科学数据激增需要探索更加高效、智能的方法从大规模科学数据中发现有价值的科学事件。科学事件的探索和发现往往具有时效性以时域天文学为例大视场短时标巡天以其阵列式观测覆盖组合大视场和高时间分辨率的数据采集具备了高效发现短时标科学事件持续时间较短的科学事件的能力但也对数据管理带来前所未有的挑战。大视场短时标巡天每天都以TB量级的速度快速采集数据并形成大规模数据流短时标科学事件就蕴含其中但是短时标科学事件极其稀有且稍纵即逝因此对分析的实时性要求很高此外高噪声和伪事件又导致其真伪判断愈加困难[2-4]。不仅在于天文学领域其他科学领域数据收集类似都愈发强调实时性和高精度。事实上上述例子的挑战主要表现为“快、准、全”三方面。首先 大科学装置产生的大多为科学数据流大规模流式处理和分析是必须的其本质为“大”数据中发现“小”概率的科学事件要求系统具备实时智能分析的能面[5]。其次系统需要提供对科学事件快速验证的能力因此不同的数据源的高精度融合和多尺度实体画像构建能够助力科学家做出准确判断即整体发现不仅要“快”更要“准”。最后由于科学事件的稀有性系统需要实现智能地自我更新以不断提高整个系统的发现能力因此必须借助历史数据的高效分析以实现科学事件发现的“全”面[6]。基于此针对科学事件的发现目标要解决大规模科学数据的智能发现问题本质上是实现大规模科学数据的智能管理本文从数据管理的角度来解决智能发现问题。具体而言大规模科学数据智能发现与管理主要面临着如下三方面的挑战1 实时智能的科学事件分析实时智能的科学事件分析事实上主要面临数据处理和智能发现两方面问题。科学数据中的观测目标极多即数据基数大就要求报警率极低可达十万分之一才能保证科学家对报警的重视程度因此不仅需要具备实时处理大规模科学数据的能力同时需要具备高精度的智能发现能力。2 快速高效的科学事件验证高效的科学事件验证主要解决的问题是对于科学事件报警信号的实时验证以快速识别其价值。例如在时域天文学中天文学家的验证工作繁琐虽然有集成的数据库平台可以使用但这些数据库都只停留在数据的集成阶段未能高效地从集成的数据库中抽取数据间的关系和知识并加以融合也不能充分利用历史科学文献中积累的科学事件知识导致验证工作困难[7]。3 大规模科学数据的长期存储当前科学数据的收集效率越来越高然而长期历史数据由于管理能力限制呈现出价值逐年递减的态势如同矿业领域的煤矸石一样不能被高效利用影响了长期数据服务于提高系统发现能力的效率因此对长期历史数据的存储和分析是必须解决的问题。如何有效组织并以低成本解决大量历史数据的查询分析问题使得能够从底层数据角度服务于智能分析和验证任务是科学数据面临的普遍问题。1 科学数据智能发现与管理框架前文所述的挑战如果得以解决将为科学发现打开一扇崭新的窗口极大地助力科学家对科学事件的发现工作。基于此本文提出大规模科学数据智能发现与管理框架如图1所示包含智能分析层、知识融合层和数据存储层三个部分图1 大规模科学数据智能发现与管理框架1 科学事件的实时智能化分析针对科学事件的实效性和特殊科学装置数据采集特点设计新的流数据处理框架适应科学数据要求的实时性能约束和处理模式此外计算任务从数据和模型两个角度助力科学事件的高效智能分析。2 多尺度科学数据的全景化融合科学观测不是单方面的观测存在多个观测角度、观测装置、观测地点等针对科学数据特有的多尺度、多源观测特性采用知识融合及知识图谱技术实现不同科学数据源的交叉融合构建海量科学事件观测目标知识图谱加速科学事件验证。3 大规模科学数据的协同化存储科学数据的长期存储主要解决高效查询问题。因此首先从存储优化角度提高整体数据访问性能科学数据通常具有时间和空间特性可以通过时空优化的内外存协同存储与索引机制保证数据存储的合理性其次从系统合理配置角度提高特定查询的效率通过科学数据工作负载运行时的特征收集和分析动态设置系统的最优化配置方案。事实上本文提出科学数据智能管理框架以科学事件智能分析、高效科学事件验证和大规模科学数据长期存储三大基础性关键技术作为支撑三个关键技术作为一个有机整体共同助力科学事件的快速发现。2 科学事件的实时智能化分析本节主要聚焦于从处理框架和分析方法两个角度介绍科学数据流的智能化分析。2.1 科学数据的分布式处理框架科学数据流的形式是多样的最终都可以归结为观测值的时间序列但采集方式会有不同。对于元组采集方式而言每个采集终端负责对一个目标或极小区域采集样本值如海洋中的观测浮标收集温度湿度等每次数据采集都是一个极小的数据元组。对于批量采集方式而言观测单元对海量目标同时进行数据采集如时域天文学中观测阵列对天体光度采集每次都会形成海量目标的观测值的数据块且这类数据块又不适宜拆分成元组处理因为会损失块内邻域元组之间的关联特性。针对以上特性科学数据的分布式处理框架需要能够结合不同的领域知识动态适应不同采集方式。对于元组采集模式而言处理框架需要使用非阻塞式元组处理模式或阻塞式微批处理模式[8-9]即Apache Storm和Apache Spark streaming采用的方式处理。对于批量采集方式而言处理框架需要使用非阻塞式实时块数据处理模式该处理不同于上述两种处理模式。由于块数据不能拆分元组处理又要保证块数据处理的实时性因此处理框架必须兼顾块邻域关联特点的基础上动态对块数据分区进行分布式处理且分区数据的处理要进一步有实时性保证。这就要求处理框架底层支持基于块数据分布式处理的实时约束技术。此外还需要通过资源隔离的方式隔离不同的处理模式并保证它们有机地协同工作。2.2 交互反馈的科学发现机制科学发现中常用的方法是时间序列异常检测[10-13]主要方法可分为基于分类、基于聚类、基于统计学、基于信息论以及基于人工智能的异常检测等技术等。而当下科学数据通常是以时序流形式呈现[14]且异常发现模式不能够完全穷尽导致传统的时间序列异常检测算法不能够胜任。科学数据具有连续采集特性因此科学发现可分为离线挖掘与在线分析两部分从模型角度提高科学数据分析精度。离线层数据量大使得离线数据训练的模型精度高更能够涵盖数据的全局特征但离线训练模型耗费时间长实时层数据量少实时层的模型训练要求快但训练的模型精度低只能够涵盖数据的最新特征局部。因此需要研究在线与离线交互分析反馈机制用离线精度高的模型支持实时的异常检测从系统和算法两方面实现实时序列异常发现算法体系的演化并实现离线分类模型自适应更新图2为本文提出的实时—离线闭环反馈策略。图2 实时—离线闭环反馈机制基于反馈机制的科学发现使得系统的离线层和实时层形成闭环从而持续提高科学发现的精度形成科学数据处理的工作流[15]。2.3 数据质量控制与序列补全科学数据作为一系列观测值容易受到外界环境干扰会导致数据的畸变或缺失因此考虑从数据角度提高分析精度。对于典型的元组采集方式而言目前有很多抗噪声的方法用于数据的质量控制如小波变换等。但是对于批量采集方式而言这类方式是不适用的。因为每次干扰都是局部空间相关的如时域天文学中云雾对天体光度的遮挡都是范围性的。因此分析这种局部空间的相关性干扰是数据质量控制的核心。这要求质量控制技术需要区分不同数据采集方式以动态适配。无论是哪种数据采集方式最终都是以时间序列形式呈现的由于观测计划改变、设备故障等常常导致时间序列残缺不全缺失的数据比例之大导致已有的方法无法解决严重影响了后续对观测数据的分析以及科学事件发现。针对时间序列的补全主要有基于统计量的统计学、基于相关时间序列以及基于深度学习的方法[16-17]。这些方法通常只能在离线层使用要求相关序列非完全缺失而且无法处理连续大量的缺失数据。在科学发现的真实场景下序列的缺失情况千差万别不仅需要科学数据的实时补全方法同时需要保证在缺失数据无法补全时的发现精度结合反馈机制来不断完善补全算法具有重要意义。3 多尺度科学数据的全景化融合在科学发现场景下科学事件的验证往往需要借助多个数据源的数据对观测到的科学事件候选体进行统一化的多维度描述形成观测目标的多尺度画像以辅助科学家更为清楚地验证候选体的真伪同时能够对数据进行溯源[18]。为了对观测目标的知识进行可粒度缩放、可跨界关联、可全局视图的融合与管理[19-20]本节提出基于知识表示学习的全景式科学数据知识融合机制图3帮助科学家实现智能验证突破目前验证的高延迟瓶颈。图3 大数据驱动的“全景式”科学数据融合机制3.1 多尺度观测目标之间的数据融合科学数据可以来源于不同的观测设备、观测地点、观测方式、观测顺序等其数据形式可以是数据集、数据库、文本或文档等数据格式可以是图像、文字等因此其数据的多源异构特性非常明显。传统方法主要结合语义信息和多辅助信息来计算相似度需要设计不同的学习模型来适应不同数据的特征十分不便[21]。针对科学数据的多源异构特性需要实现多模态数据之间的表示转换以便将不同的特征映射到统一的知识表示空间中[22]。该实体融合方法将来自于不同观测设备的、以不同格式存储的观测目标信息转化为统一的资源描述框架并据此进行知识的对齐和消歧具体使用基于知识图谱技术的有监督数据转化方法通过参数共享、正则项添加等方式完成观测实体的融合。3.2 观测目标及其描述间的知识获取科学领域有着大量的科学数据库和本体库与此同时还有海量的科学研究文献数据关于科学发现和科学事件分析等科学论文可以从相关网站或数据库中自由获取这使得抽取大量以文本形式存在的科学知识变为可能而且这也为知识的更新和质量控制提供了保证。因此在科学发现中可以通过基于知识表示学习的科学知识获取方法将科学文献中存在的科学知识进行挖掘和抽取具体研究基于初始知识库和本体库的双向嵌入式学习对实体和本体都进行嵌入式学习以此增强从科学文献中提取实体和关系的效率同时研究在低资源情境下基于迁移学习方法来把开放领域中的研究模型引入到科学文献中的知识发现过程中来。3.3 大规模观测目标知识的全景融合针对大规模观测目标的知识全景融合旨在刻画大数据驱动的“全景式”科学数据知识图谱。这里提出将对齐的多源科学数据和获取的科学知识从概念层和实例层对齐后再次融合到一个全局视图的全景化知识图谱中[23]。首先需要在已有的科学数据上进行知识融合需要对已有数据中的概念和实例进行对齐[24]其次基于上述两个研究基础对从开源数据中获取的观测目标科学知识与已知的观测数据库进行再一次知识的对齐验证同样需要从概念和实例两个层次来完成由于需要较强的观测领域背景知识也为了方便服务于科学工作者利用众包技术或者交互设计技术将人工部分融入到集成过程中来[25]使得融合后的知识质量得到有效控制最后基于融合后的最终知识图谱设计链接预测方法比如利用图嵌入式学习或表示学习方法进行标注缺失数据的标签预测以便补全观测目标知识中的缺失或遗漏部分。4 大规模科学数据的协同化存储在科学领域观测产生的数据主要服务于实时智能的科学发现但是随着数据源源不断到来系统依然需要将数据进行长期存储以提供智能分析层、数据融合层和上层科学家查询。由于科学场景的查询具有典型的时空局部性因此本节主要研究高效的科学数据存储框架和查询性能优化。4.1 时空优化的多级存储架构实时性和快速性是智能管理场景下科学数据长期存储的核心要求。而传统的长期科学数据的管理主要研究目标是批式大数据管理系统不能够满足智能管理的实时性和快速性。新的采样数据不断到来系统不仅需要实时地处理和查询这些数据而且需要持久化地保存历史数据以便支持数据的全时态查询与分析。针对科学数据的时间和空间特性可以通过使用内存或高速存储设备实现内外存协同存储并结合科学数据的时空相关性进行优化。通过时空优化的多级内外存协同存储与索引机制可以将不同时间段的数据合理存放以兼顾实时性和空间消耗从而实现科学大数据快速持久化图4即为内外存协同多级存储架构。图4 内外存协同多级存储架构通过事先存储供聚集分析使用的粗粒度概要数据并使用精度感知存储机制在适当放宽查询的精度要求下访问近似或者部分概要数据来给出可以接受的结果以提高查询分析性能。4.2 运行时系统自动化配置面向智能管理的科学查询需要实时性约束特别是针对短期历史数据由于观测周期的限制每次发起的查询最好能在一次观测周期内完成以确保查询结果能够用于下次数据处理即查询延迟要小于给定的时间限制[26]。由于科学查询是复杂多变的对满足实时性的系统资源的要求也是不同的若系统资源配置不合理会严重影响系统查询的整体延迟。可以构建增量性能模型的方式预测查询延迟运行时特征可以包括查询规模、查询算子、系统配置、资源使用等。最终通过预测的延迟选择合适任务配置与调优方法保证在尽可能满足实时性的条件下资源消耗最小最后快速实现新配置方案的部署。5 总结与展望科学数据进入信息丰富的大数据时代其具有多样性和复杂性特点目前的大数据分析方法主要依赖于常规的标准数据类型缺乏科学数据一体化分析体系。此外科学数据的统一表达、建模、操作计算方法明显欠缺难以实现多维度、多尺度的科学数据知识融合与分析使得科学家在科学事件验证时面临效率低、耗时久的瓶颈。科学大数据的长期存储和高效查询也是目前科学发现工作面临的重要问题。要实现科学数据智能发现与管理由挑战到机遇的华丽转身就需要提出新的发现与管理框架。本文从数据管理的角度提出科学数据发现与管理框架将科学数据智能管理分解为智能分析、知识融合、数据存储三个层面为大规模科学数据智能发现打开了新窗口为科学领域的观测和科学事件的发现提供了新思路。可预见的未来大科学装置蓬勃发展面向不同的科学目标产生的科学数据形态各异需要的分析技术也是不尽相同的如果都从零开始构造科学大数据分析系统不仅研发动辄几年而且耗费大量人力物力且不具备复用性。因此对部件的复用显得至关重要。事实上建筑领域中北宋李诫的《营造法式》就提出了“凡构屋之制皆以材为祖”的理念元件“材”为基础的思想道出了中国古建筑的灵魂即标准件、模数化和装配式实现了营造效率、成本和建筑美观的内在平衡这是古代匠人的永恒智慧。对科学大数据来说是否存在一种“营造法式”通过建设科学计算元件库以实现大型复杂的科学分析系统能够像古建筑般高效构建且重复利用“多快好省”地支持科学发现这就是值得思考的重要方向之一。参 考 文 献[1] 黎建辉, 沈志宏, 孟小峰. 科学大数据管理:概念、技术与系统. 计算机研究与发展, 2017, 54(2): 235—247.[2] Ivezic Z, Kahn SM, Tyson JA, et al. LSST: from science drivers to reference design and anticipated data products. The Astrophysical Journal, 2019, 873(2): 44.[3] Yang C, Meng XF, Du ZH. Cloud based Real-Time and low latency scientific event analysis. Big Data, 2018, 498—507.[4] Yang C, Meng X, Du Z, et al. Data Management in time-domain astronomy: requirements and challenges. BigSDM, 2018, 32—43.[5] 孟小峰, 慈祥. 大数据管理:概念、技术与挑战. 计算机研究与发展, 2013, 50 (1): 146—169.[6] 杨晨, 翁祖建, 孟小峰, 等. 天文大数据挑战与实时处理技术. 计算机研究与发展, 2017, 54 (2): 248—257.[7] 孟小峰, 杜治娟. 大数据融合研究:问题与挑战. 计算机研究与发展, 2016, 53 (2): 231—246.[8] Wan M, Wu C, Wang J, et al. Column store for GWAC: a high-cadence, high-density, large-scale astronomical light curve pipeline and distributed shared-nothing database. Publications of the Astronomical Society of the Pacific, 2016, 128(969): 15.[9] Medvedev D, Lemson G, Rippin M. SciServer compute: bringing analysis close to the data. Proceedings of the 2016 ACM International Conference on Scientific and Statistical Database Management, 2016, 27: 1—4.[10] Chandola V, Banerjee A, Kumar V. Anomaly detection: a survey. ACM Computing Surveys, 2009, 41(3): 1—58.[11] Malhotra P, Vig L, Shroff G, et al. Long short term memory networks for anomaly detection in time series. // European Symposium on Artificial Neural Networks, 2015.[12] Movahedinia R, Chaharmir MR, Sebak AR, et al. Realization of large dielectric resonator antenna ESPAR. Ieee Transactions on Antennas and Propagation, 2017, 65(7): 3744—3749.[13] Ding D, Zhang M, Pan X, et al. Modeling extreme events in time series prediction.// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery Data Mining, 2019, 1114—1122.[14] Feng TZ, Du ZH, Sun YK, et al. Real-time anomaly detection of short Time-Scale GWAC survey light curves.// IEEE 6th International Congress on Big Data, 2017, 224—231.[15] Deelman E, Gannon D, Shields M, et al. Workflows and e-Science: an overview of workflow system features and capabilities, 2009, 25(5): 528—540.[16] Zhang YF, Thorburn PJ, Xiang W, et al. SSIM-A deep learning approach for recovering missing time series sensor data. IEEE Internet of Things Journal, 2019, 6(4): 6618—6628.[17] Arous I, Khayati M, Cudre-Mauroux P, et al. RecovDB: accurate and efficient missing blocks recovery for large time series.// 2019 IEEE 35th International Conference on Data Engineering, 2019, 1976—1979.[18] Simmhan YL, Plale B, Gannon D. A survey of data provenance in e-science, 2005, 34(3): 31—36.[19] Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion.// Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, 601—610.[20] Dong XL, Srivastava D, Acm S. Knowledge curation and knowledge fusion: challenges, models, and applications// Proceedings of the 2015 Acm Sigmod International Conference on Management of Data, 2015, 2063—2066.[21] 王雪鹏, 刘康, 何世柱, 等. 基于网络语义标签的多源知识库实体对齐算法. 计算机学报, 2017, 40(3): 701—711.[22] Kong C, Gao M, Xu C, et al. EnAli: entity alignment across multiple heterogeneous data sources. Frontiers of Computer Science, 2019, 13(1): 157—169.[23] 王硕, 杜志娟, 孟小峰. 大规模知识图谱补全技术的研究进展. 中国科学:信息科学, 2020, 50(4): 551—575.[24] Ren X, Wu ZQ, He WQ, et al. CoType: joint extraction of typed entities and relations with knowledge bases// Proceedings of the 26th International Conference on World Wide Web, 2017, 1015—1024.[25] Doan A, Ardalan A, Ballard JR, et al. Human-in-the-Loop challenges for entity matching: a midterm report. ACM HILDA, 2017, 12:11—16.[26] Wang CK, Meng XF, Guo Q, et al. Automating characterization deployment in distributed data stream management systems. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2669—2681.未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.sadfv.cn/news/151558/

相关文章:

  • 沛县网站建设xlec中国商标网官网入口
  • 外贸网站和普通网站wordpress改变主题页脚
  • 网站建设要素个人网页制作成品 设计
  • 无极门户网站电器网站建设目的
  • 东莞品托网站建设高端网站建设找哪个公司
  • 网站建设服务器要求网站建设get你
  • 如何把网站做跳转浏览器链接地址Wordpress个人套餐
  • 做网站的教学视频上海市做网站
  • 网站建设需要考虑因素郴州招聘网直招最新招聘
  • 移动端网站模板怎么做信用网站建设意见
  • 网站开发转码手机汽车推广方式有哪些
  • 西安网站制作流程传奇发布网新开服
  • 360搜索建站外贸网站个性设计
  • 营销型网站设计工资郑州搜索引擎优化
  • 微网站建设开发工具it企业网站模板下载
  • 做网站还有希望吗手机版cad简单制图
  • 制作商城网站模板网站ie兼容性
  • php网站制作实例教程免费网店怎么开
  • 如何利用路由建设网站wordpress图片本地化
  • 南宁网站设计方案网上工作平台
  • 泉州网站建设优化公司xampp下wordpress
  • 标准网站建设价格教育云平台网站建设
  • 建设一个网站主要受哪些因素的影响因素网站开发有哪些方式
  • 智能网站建设系统国内做钢铁的网站
  • 有没有做视频的网站盐城做网站价格
  • 用muse做网站wordpress自动提取描述关键词
  • 网站建设与管理题库兰州网站制作培训班
  • 网站建设最好的公司哪家好做网站的顶部图片
  • 网站建设流程图viso校园官方网站建设的书籍
  • 网站友情链接要加什么用南通seo快速排名