当前位置:首页 » 存储配置 » 非结构化数据如何存储

非结构化数据如何存储

发布时间: 2022-11-29 05:48:52

Ⅰ GBase 8a对非结构化数据支持怎么样如何存储访问

GBase 8a支持结构化数据和非结构化数据的统一管理,具体如下:
(1)支持将非结构化数据以BLOB数据类型的方式存储在Hadoop上;
(2)支持通过MPP集群数据库表中的URI字段访问Hadoop上的BLOB数据类型的数据。

Ⅱ 如何处理非结构化数据

非结构化数据 已经存在相当长一段时间了,它出现的时间比计算机诞生的时间还要早。像古埃及的象形文字(升体书)、流传已久的各大宗教经文等等,都早在芯片出现以前就有了。而搜索引擎同样也存在了相当长一段,虽然没有印刷文字的历史那么久远。不过,要说揭开保存在这些非结构化数据里的宝贵信息的秘密,就算是用现在已经非常成熟的搜索引擎,也还没有得到什么理想效果。为什么会这样呢?进去的是垃圾,出来的必是废物(Garbage In, Garbage Out) 对搜索引擎而言,要解开非结构化数据中真正有用的东西,还缺乏一个重要的因素。为了让大家容易理解这个欠缺的因素,这里引用一下IT界里的一句明言“Garbage In, Garbage Out”,简称GIGO,类似于“种瓜得瓜,种豆得豆”的意思,也就是说如果你输入到计算机里的是一些乱七八糟的无用信息,那么计算机输出的结果也是无用的废品,也代表了信息技术最难解决的问题之一,体现了对数据质量的要求。当我们用一个强大的搜索引擎来对基本上未经净化、未经清洗、未经集成的文本数据进行搜索时,会出现什么结果呢?就如上面的明言所示,搜索引擎最后返回给终端用户的结果也是未经清洗和集成的。 为了使文本搜索变得真正有意义,在执行搜索操作之前,必须把需要对其进行搜索的文本进行集成。如果完成了集成的步骤,那么你输进去的就不再是“垃圾”,而出来的也就不再是“废物”了。 互联网对垒企业数据 在互联网上搜索信息的时候,要进行数据清洗(data scrubbing)很难。试图清洗和集成遍布在互联网上的数据基本上是徒劳无益之举,就跟要把整个太平洋的水倒出来的难度差不多。 但对于企业数据来说,又是另一回事了,原因有二。首先,涉及到企业数据的话,数据量就很有限了——相对于几乎无限的互联网数据而言。其二,和互联网数据不同,几乎所有的企业数据都是和企业的业务相关的。保守而言,互联网上只有很小一部分数据是和任一企业的业务相关的,即使是像IBM这样的规模庞大,经营业务繁杂的企业。 因此,集成企业的文本数据,或者说为了搜索和分析而对这些数据进行预处理,其实现的可能性就非常大。 1)客户资料——与客户沟通有关的数据 2)安全数据——与事故、检修、维护、授权及其他安全相关的数据 3)合同数据——与企业具体的合同相关的数据 4)举证数据——与诉讼过程相关的数据 5)法规数据——与敏感的企业事件和交易等相关的描述数据集成的好处 集成企业文本数据的重要好处之一就是,这些数据一旦被集成了,就可以输入到数据库被重复使用。

Ⅲ “数据仓库之父”谈如何处理非结构化数据

毫无疑问,这是一个信息爆炸的时代。你的服务器上充满了各种各样的数据。问题就提出来了,你如何处理那些非结构化数据?在本文中,让“数据仓库之父” W.H.Inmon谈谈他自己的独到见解。
虽说非结构化数据很难处理,但是它已经存在很久了,肯定比计算机的历史还要久远。不信的话,想想圣经,埃及象形文字,和卡马河佛经这些骨灰级的东西,它们都是非结构化数据,它们的历史可想而知了。这些非结构化数据绝对比那些硅片的出现的要早。搜索引擎虽然出现了一段时间,但也绝没有印刷时代历史悠久。即便现在的搜索引擎已经很完善了,但想随心所欲的处理包含非结构化数据信息的时代还没有到来,至少目前是这样的。这是什么原因造成的呢?
1、无用输入,无用输出 :
只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。实现非结构化数据的整合存在着困难,想想那些很早就提出来的信息技术难题:无用信息输入,无用信息输出(GIGO),就会知道即使功能再强大的搜索引擎,用来处理那些实质上未经提炼和整和的数据会得到什么结果?搜索引擎的结果会告诉我们答案,返回给用户的也将会是一些没有提炼,无用的信息。
因此,在搜索之前,那些非结构化的文本数据需要被提炼整合。如果这个工作完成的话,就不会有无用信息的输入,那么将不会产生无用的输出信息。
2、Internet数据和公司数据的差异 :
通过搜索Internet来提炼数据收效甚微。通过Internet提炼和整合数据是白费力气。试图在Internet整合数据好比愚公移山,大海捞针。
但是公司数据就是另外一回事了,有以下两个原因。第一,当提到公司数据,它的总量和类型是有限的,而Internet上的数据正好相反,无穷无尽。第二,不像Internet数据,公司数据几乎和公司的事务相关。我可以很肯定的说,Internet上的数据上只有小部分的数据和公司的事务相关。
因此,整合公司文本数据,或者为了研究或者分析的目的而去整合,是非常可行的。
3、什么样的公司数据需要整合:
因此什么样的公司数据需要被整合呢?很明显,有这么些类型的公司数据应该被整合,包括:
1.客户数据——那些与客户信息相关的数据
2.安全性数据——如意外事件,审查,修理,特约条款等等这些重要的事件
3.合同数据——与公司合同相关的数据
4.发现数据(Discovery data)——诉讼过程中的数据
5.顺应性数据(Compliance data)——针对公司敏感事件和事务的描述
由此看出,公司数据限制很少,或者从理论上说,是没有限制的。
4、数据整合的优势:
整合公司文本数据的重大优点之一,就是一旦整合,它们就可以输入到数据仓库中,并且能重用。也就是说,公司文本数据只需要整合一次。整合之后,只要你愿意,你可以多次研究和分析这些数据,可谓一劳永逸。
值得一提的是,在这公司文本数据整合后,就可以放入到数据仓库中。一旦进入了数据仓库,这些数据就能与结构数据结合到一起。
5、客户信息分析 :
举个例子,如针对公司的客户信息管理系统,就要分析客户信息。通常会从客户那里收到e-mail。但是,一旦那些e-mail阅读之后,通常就被放在一边了。这些读过的邮件将会存放到一个文件夹里,从此这些邮件就在那里搁置着,与另外上千的e-mail堆放在一起。
问题是,当公司需要这些信息的时候,这些信息却很难找到。当一些e-mail涉及到潜在的未来信息,就显得更加重要了。
客户琼斯夫人案例分析
为了证明以上观点,让我们看看一个案例,这个案例的主角是一位叫琼斯夫人的客户。假设她上个月写了一个e-mail来严厉批评公司的销售人员,因为她的一个订单被延误了。而正好这个月,公司的另外销售人员准备打电话给琼斯夫人,请求下更多的订单。这是时候,对于那个销售人员来说,上个月的来自琼斯夫人的e-mail重不重要呢?
答案当然是非常重要的。如果我们想给琼斯夫人推销更多的新产品,这个时候关于客户最近的任何信息都是非常重要的,无论正面了解的信息,还是从琼斯夫人那里反馈的信息。因此,摆在我们公司面前的问题就是如何找到那些与客户相关的e-mail?如何过滤掉那些不相关的e-mail?
这里说的例子,只是其中的一个,许多的例子都需要用到非结构文本数据,如果为公司文本数据设计一个专门的整合过程,将这些公司文本数据能存储到一个数据仓库里,查找、过滤信息就好办多了。
注:数据无非包括结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。而非结构化数据包括音频、图像、e-mail、电子表格、txt文本、文档、报告等。

作者简介

比尔•恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

Ⅳ 什么是非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。

非结构化数据的特点:

分析数据不需要一个专业性很强的数学家或数据科学团队,公司也不需要专门聘请IT精英去做。真正的分析发生在用户决策阶段,即管理一个特殊产品细分市场的部门经理,可能是负责寻找最优活动方案的市场营销者,也可能是负责预测客户群体需求的总经理。

终端用户有能力、也有权利和动机去改善商业实践,并且视觉文本分析工具可以帮助他们快速识别最相关的问题,及时采取行动,而这都不需要依靠数据科学家。

以上内容参考:

网络-非结构化数据

Ⅳ 非结构化数据大量存储本地,无法扩展,怎么办

XSKY星辰天合的XUDS在非结构化数据处理上非常专业,他是采用的软件定义的架构,支持多种协议,让存储摆脱硬件和平台的限制。

Ⅵ 请教:关于结构化和非结构化数据存储

(1)结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

(2)非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图像、声音、影视、超媒体等信息)。

面对海量非结构数据存储,杉岩海量对象存储MOS,提供完整解决方案,采用去中心化、分布式技术架构,支持百亿级文件及EB级容量存储,具备高效的数据检索、智能化标签和分析能力,轻松应对大数据和云时代的存储挑战,为企业发展提供智能决策。

Ⅶ 非结构化数据的管理方面有哪些比较好的分布式软件定义存储平台

在非结构化数据的管理上我觉得XSKY星辰天合的XEDP 平台还行,这个平台作为多种云平台和非结构化数据、大数据平台的后端存储载体,能够实现从单资源池数台到数百台的不停机水平扩展,在我们公司项目服务后台的非结构化数据处理上有很强的处理能力。

Ⅷ 如何将非结构化数据转化为结构化数据

随着机器学习的发展,过去传统的结构化数据分析方法已经不能满足我们的需求了。如何在神经网络中利用非结构化数据是很重要的一点。所以很多研究者致力于将非结构化数据处理成结构化数据的工具开发。将非结构化数据转化为结构化数据有以下几个方法:
1. 传统方法——树
虽然绝大多数数据是非结构化格式的,但是结构化数据普遍存在于各类商业应用软件和系统中,例如产品数据存储,交易日志,ERP和CRM 系统中都存在大量结构化数据,这些结构化数据仍应用着陈旧的数据技术处理,如基于规则的系统,决策树等。这样的方法需要人工进行特征提取,操作繁琐且需要耗费大量人力进行数据标签。
非结构化数据,也就是通常使用的杂乱无章的文本数据。非结构化数据通常是不能用结构化数据的常规方法以传统方式进行分析或处理的,所以这也成为AI领域一个常见的难题,要理解非结构化数据通常需要输入整段文字,以识别其潜在的特征,然后查看这些特征是否出现在池中的其他文本中。因此,在处理此类任务时,深度学习以其出色的特征提取能力一骑绝尘,于是所有人都开始想着把神经网络用在结构化数据上——建个全连接层,把每一列的内容作为输入,再有一个确定好的标签,就可以进行训练和推理了。
2. 新型利器——深度学习
需要寻找结构化数据的语义,目前要解决的问题主要有:
①数据清洗。要在结构化数据 AI 应用上有所成果,首先需要解决人工数据清洗和准备的问题,找到极少或者没有人为干预的自动化方法,才能使得这一应用可落地可拓展。
②异构数据。处理结构化数据的其中一大挑战在于,结构化数据可能是异构的,同时组合了不同类型的数据结构,例如文本数据、定类数据、数字甚至图像数据。其次,数据表有可能非常稀疏。想象一个 100 列的表格,每列都有 10 到 1000 个可能值(例如制造商的类型,大小,价格等),行则有几百万行。由于只有一小部分列值的组合有意义,可以想象,这个表格可能的组合空间有多么“空”。
③语义理解。找到这些结构化数据的语义特征。处理结构化数据并不仅仅依赖于数据本身的特征 (稀疏,异构,丰富的语义和领域知识),数据表集合 (列名,字段类型,域和各种完整性约束等)可以解码各数据块之间的语义和可能存在的交互的重要信息。也就是说,存储在数据库表中的信息具有强大的底层结构,而现有的语言模型(例如 BERT)仅受过训练以编码自由格式的文本。
3. 结构化数据清洗
除了某些特定的需求外,经过预处理之后的结构化数据,应该满足以下特点:
①所有值都是数字–机器学习算法取决于所有数据都是数字;
②非数字值(在类别或文本列中的内容)需要替换为数字标识符;
③标识并清除具有无效值的记录;
④识别并消除了无关的类别;
⑤所有记录都需要使用相同的一致类别。

Ⅸ 油田地质档案中非结构化数据管理模式探索

李燕

(中国石油化工股份有限公司西南油气分公司信息中心档案馆)

摘要 本文针对非结构化数据管理中存在的问题,分析了西南油气田地质档案非结构化数据管理特点,提出了数据采集、数据存储、数据管理与数据利用的技术架构,并对非结构化数据的管理、应用进行了深刻剖析,总结出了以技术解决方案、行政管理模式和数据服务三位一体的管理模式,为油田地质档案中非结构化数据的管理与应用探索出了一个有效的模式。

关键词 非结构化 数据存储 地质档案 应用 管理

0 引言

随着我国经济建设的不断发展,信息资源越来越成为企业或者组织的核心和命脉。对于信息密集型的石油行业来说尤其如此。在多年的生产实践中,国内的石油行业已经发展出了针对大部分信息的数据综合管理、数据应用、企业标准和行业标准等技术和成果,极大地支撑了石油勘探开发的各个过程。然而,和国外的石油公司相比,在信息资源的协同、分析、挖掘、共享、决策支持、集群计算上还存在一定的差距,这其中的核心要点就是如何对非结构化数据进行有效的存储和利用。

对于典型的石油工业企业来说,信息资源存在于各种载体中,例如纸质的书籍或者论文、PDF文档、图形图像文件、扫描件、电子书、光盘等,这些信息最终都可以转化为非结构化数据。而对非结构化信息的管理需要面对如下问题:

高容量:非结构化数据通常是一个或多个文档、图件、多媒体等,容量在百兆、千兆级的比比皆是。

异构化:非结构化数据的来源、格式、载体都各不相同,难以进行统一的管理和检索。

复杂性:非结构化数据因其高容量、异构的特点,在存储、检索、过滤、提取、分析和挖掘方面非常复杂。

再处理:非结构化数据在定制、交换、加密方面存在大量的个性化需求,格式的差异和多样性也导致了对这些数据的再处理非常困难。

本文即是对这些问题进行详细的讨论和研究,结合油气田地质档案非构化数据的存储与利用,探讨一种可行的方法和合理的解决方案。

1 非结构化数据管理的技术架构

非结构化数据与结构化数据相对,系指不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音/视频信息等。

西南油气田通过配置和集成软硬件产品,设计并实施了适合非结构化数据存储与利用的技术架构,由低到高分别是数据采集(预处理)、数据存储、数据管理、数据使用(图1)。

图1 非结构化数据存储与利用的技术架构图

数据采集是非结构化数据管理最基础的过程,是把原始的或者第一手的资料转化成可供处理的数字化信息的关键步骤。

非结构化数据存储是把勘探科研、生产、管理中产生的文档、图件、专着存放在数据库或者文件服务器上。一般采用两种方式:一是把非结构化数据转换成二进制流,存放在关系型数据库中,同时一并记录相关的辅助信息(可自定义);二是把非结构化数据保存到目录服务器上,在关系数据库中只记录目录服务器上的索引信息和辅助信息(可自定义)。图2示意了这两种方式。

图2 非结构化数据存储示意图

数据管理是对已经存储成功并且经过了结构化的信息进行再处理,包括数据的分类、检索、元数据化、标准化、统计和归并。

数据使用是非结构化数据管理的最终目的,信息如果不能交流、共享,那么一个组织产生的信息再多,也不免成为信息孤岛。采用基于.net和Web Service体系架构,为信息的共享和协同提供了技术上的保障。

2 非结构化数据管理应用解析

西南油气田按非结构化数据管理的技术架构开发并组建了西南油气田地质资料管理平台体系,对非结构化数据的管理实现了6大功能:非结构化数据的整理、元数据、基于索引服务器的全文检索、索引编制、任务管理、知识管理(表1)。

表1 中石化西南油气田非结构化数据管理功能统计表

2.1 非结构化数据管理的功能架构

西南油气田地质资料管理平台是一个完全的B/S模式资料管理系统和信息发布系统,其中,地质资料管理系统包括用户管理、机构管理、权限管理、日志管理、数据管理、资料上传、资料整理、资料审核、元数据、资料检索。信息发布系统包括资料借阅、资料上传、在线浏览、资料检索、下载。

除了能够完成资料管理和信息发布的功能外,还依据自身的工作方式,在平台中加入了本企业元素,如:资料属性的自定义、用户功能选择、借阅流程与归档着录一体化流程的植入、上传和下载的压缩与加密、用户与安全方案的自动绑定,新到资料的查询、个性化报表的查询和打印、催还信息的发布等。主要功能架构如图3。

图3 功能架构图

2.2 西南油气田地质资料非结构化数据管理的主要特点

2.2.1 地质资料及文档的包装和结构化

在数据存储方面,采用了基于Web Service数据访问层组件,通过修改设置可以分别连接Oracle 9 i数据库、SQL Server 2000数据库等多种数据库,用户可以根据需要选择。地质资料及文档的包装和结构化是指在数据采集和存储方面采用了“资料体-文件体”的二元封包方式。对所有类型的文件或者文件集合都可以定义为资料体,同时采用元数据对资料体进行描述;从逻辑上来说,资料体是一个或者多个文件实体的集合,通过这种方式,就统一了各类非结构化数据的表现形式、外观和行为,有利于将来的数据交换和协同。图4描述了这种二元关系。

图4 非结构化数据的二元封包方式

2.2.2 任务管理

文档资料被采集并提交,资料体和元数据信息就会被写入关系数据库中(目前支持Oracle),而文件体会通过任务自动上传到专门的文件服务器中,同时由索引服务自动为这个文件体创建索引。入库文档资料的默认存储方式是通过磁盘文件来存放的,如果需要把入库文档资料以二进制流的形式保存到关系数据库中,则需要部署和配置数据持久化服务。图5对文档资料采集和存储的过程进行了直观的描述。

图5 文档资料采集和存储的任务管理流程

任务管理是对上传下载过程的任务化。为了应对文档资料的采集要求,使用上传任务来管理上传过程,整个过程可以通过服务在后台依次自动完成,对用户的操作不造成任何影响,避免了传统的文件采集过程中用户需要耗费大量的时间来等待上传;为了确保数据的完整性,上传过程支持断点续传。直观的上传任务管理器把需要上传的文档存放在任务队列中,用户可以随时停止或者启动上传任务,最大程度的减少因为网络状况或者容量问题带来的不便。

2.2.3 元数据的定义和描述

在数据采集的过程中可以对文件定义元数据,文件的元数据继承自所属的案卷属性,这样一旦将文件归入某一个资料类别,那么就可以设置这个文件的扩展信息;另一方面,分类的元数据格式能够成为这一类文件的元数据模板,同类文件的元数据格式都是相同的,便于进行同类资料的数据交换。图6说明了案卷(资料类型)、文件和元数据的关系。

元数据作为非结构化数据的标签,其意义是非常重要的,系统的检索功能的查全和查准率主要是基于元数据的定义是否合理和准确,因此系统必须要提供元数据信息的修改和动态扩展功能,只有提供了上述功能,系统的信息描述才可能准确和丰富,这也是很多类似的信息系统所缺乏的。

图6 案卷、文件和元数据的关系

依据中石化企业标准《Q/SH0167—2008石油天然气勘探与开发地质资料立卷归档规则》,根据地质资料管理的特点,结合西南油气田的实际情况,需求分析,明确各种(系统管理、资料加载和在线浏览、资料查询、资料借阅和下载、资料销毁、资料压缩加密、资料审核、资料接收和分发)功能,对地质资料的文件元数据、档案元数据、企业扩展元数据进行了充分研究与定义,实现了不同类别的地质资料定义不同属性,方便查询与借阅。例如表2。

表2 地质资料元数据属性表

2.2.4 基于文件索引服务器的全文检索

对非结构化数据的检索采用了两种方式:基于属性、关键字的精确检索和基于内容的全文检索。全文检索过程采取了提交—建索引—查找—组织结果—返回的过程来完成。非结构化数据被提交到了文件服务器,索引服务程序就创建或者更新索引文件(自动过程),当用户发出检索请求时,通过搜索引擎,获取包含请求内容的结果并返回给请求者。索引服务程序能够从入库的文档资料中自动抽取文本内容(图7)。

索引服务程序的工作包括:侦测文件目录的变化,文件被上传、移动、修改或者删除,就更新对应的索引;定期对文件目录的整个范围进行索引优化,保障索引在全局上的有效性和效率,这个工作可以自动完成,也可以由用户手动完成。

西南油气田基于此提供多种逻辑查询,如模糊查询、全文查询、精确查询,以及目录浏览和全文浏览。如图8。

图7 全文检索工作过程

图8 查询检索截图

2.3 西南油气田非结构化管理应用效果

西南油气田从2005年开始全面启动地质资料非结构化数据建设,经过多年的共同努力,全面完成了地质资料的非结构化目录数据库建设,共计入库地质资料条目125万条,完成了不同类别地质资料的元素据设计并进行了全面属性提取,提取的内容包括了文件元数据、档案元数据以及企业扩展元数据三大类,为地质资料网络化管理与利用提供了强有力的搜索引擎包。

同时,按照非结构化数据建设理论,西南油气田积极开展了成果地质资料全文数据库与地质图形库的建设,通过历史文档与图形的扫描整理,共计入库电子文档24万个,总容量2.9 T。与油田气地质资料目录数据库相结合,通过地质资料管理系统,实现了地质资料非结构化数据网络完整发布与全面应用。

经统计分析,在实现非结构化数据的网络化管理与应用以后,西南油气田近5年地质资料年平均利用率高达11万件次/年,是建成前的4.5 倍,有效提高了地质档案资料的管理、使用水平,节约了成本,取得了良好的经济效益。

3 非结构化数据的管理模式探索

作为企业信息资源的表现形式,非结构化数据的管理不单单是一个技术体系或者一个系统,而应该是一个庞大的系统工程。笔者根据西南油气田地质档案多年的信息化建设经验和非结构化数据管理经验,认为“技术解决方案、行政管理模式和数据服务”三位一体的管理模式是油气田非结构化数据管理的有效模式(如图9 所示)。

图9 非结构化数据管理模式图

首先,行政管理模式是整个非结构化数据管理的组织保障,由稳定的管理团队、完备的可行性研究、明确的管理需求、充分的风险评估以及务实的组织实施组成。良好的行政管理模式能够确保一个组织上下一心,共同推进信息体系建设,可以说它决定整个体系建设的成败。

数据服务是非结构化数据信息管理的基础。是指对非结构化数据进行采集、创建、加工、传递、组织、整理与规范的过程。同时也是用户和开发者之间的润滑剂,首先它能够按照用户的需求为用户处理大量枯燥的数据整理和规范工作,其次从用户的角度,指出软件的缺陷,并敦促开发者进行修改。通过数据服务,可以有效地保障用户业务的高效运转、技术体系的不断完善,发挥信息体系建设的最大效能。

技术解决方案从产品层面为非结构化数据的管理提供了软硬件平台,是从数据采集到应用的完整的技术体系。包括:基于多种大型关系数据库的信息存储体系、基于内容的非结构化数据的文件服务器、提供全文检索、关联检索的索引服务器、基于元数据的灵活的文件交换格式和个性化定制、灵活的权限策略和强大的安全策略;技术解决方案是非结构化数据存储与利用的核心。

4 结束语

非结构化数据存储和应用是各油田分公司勘探决策支持系统的重要组成部分,这一部分研发成功后,能够为决策支持所需要的信息资源提供基础的平台。同时,基于这个平台之上的非结构化数据的应用能够直接为决策支持系统服务,通过信息协同、文件检索、数据挖掘和知识管理等技术和概念的应用,能够使油气田信息化建设上缩短甚至达到国际先进水平,向着勘探数字化、数据资产化、工作协同化和决策科学化方向迈进一大步,从而带来巨大的经济效益和社会效益。

参考文献

[1]张志刚,姚玮.海量非结构化数据存储问题初探[J].中国档案,2009(8).

[2]吴广君,王树鹏,陈明,李超.海量构化数据存储检索系统[J].计算机研究与发展,2011(7).

Ⅹ 非结构化数据的概述

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据库是指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。
结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据
非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
数据模型:
结构化数据:二维表(关系型)
半结构化数据:树、图
非结构化数据:无
RMDBS的数据模型有:如网状数据模型、层次数据模型、关系型
其他:
结构化数据:先有结构、再有数据
半结构化数据:先有数据,再有结构
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。
我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的IBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库,在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点: Internet应用中,存在大量的复杂数据类型,iBase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源,如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。 它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系数据库非常严格的表结构,使得非结构化数据得以存储和管理。 iBase将非结构化和结构化数据都定义为资源,使得非结构数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了数据库系统数据管理到内容管理的转化。 iBase采用了面向对象的基石,将企业业务数据和商业逻辑紧密结合在一起,特别适合于表达复杂的数据对象和多媒体对象。 iBase是适应Internet发展的需要而产生的数据库,它基于Web是一个广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将网络服务器(WebServer)和数据库服务器(Database Server)直接集成为一个整体,使数据库系统和数据库技术成为Web的一个重要有机组成部分,突破了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组合,从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。 iBase全面兼容各种大中小型的数据库,对传统关系数据库,如Oracle、Sybase、SQLServer、DB2、Informix等提供导入和链接的支持能力。 通过从上面的分析后我们可以预言,随着网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术。

热点内容
编程猫前端 发布:2025-09-23 06:03:09 浏览:871
wampphp下载 发布:2025-09-23 06:01:54 浏览:556
网络存储25 发布:2025-09-23 05:56:53 浏览:586
c语言敲代码 发布:2025-09-23 05:55:25 浏览:732
协方差运算法则 发布:2025-09-23 05:09:46 浏览:389
java数组静态初始化 发布:2025-09-23 05:06:51 浏览:554
创建存储函数的关键词是 发布:2025-09-23 04:37:33 浏览:942
easyui框架源码 发布:2025-09-23 04:28:52 浏览:479
啪啪游戏厅存储位置 发布:2025-09-23 04:06:01 浏览:982
光遇服务器人数过多怎么办 发布:2025-09-23 03:59:20 浏览:444