当前位置:首页 » 操作系统 » rdf图数据库

rdf图数据库

发布时间: 2022-11-26 19:32:27

A. 知识图谱有什么用处

“知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。

如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。

“目前,还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉”的沃森,它们并不真正明白自己在做什么、为什么这么做。

让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。

为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开拓性工作。

技术原理:把文本转化成知识

“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”,人会想到他是前美职篮球员、“小巨人”、中锋等,而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说,仅仅说“姚明是上海人”,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。

那如何将文本转化成知识呢?

“借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效力关系,还可以和2.26米构成身高关系。

“如果这些关系足够完善,机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢?

“上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识,这些都可被看作是知识图谱的前身。”孙乐说。

随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。

“这里包括主观知识,比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。”孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。

构建方式:从手工劳动到自动抽取

“2010年之后,维基网络开始尝试‘众包’的方式,每个人都能够贡献知识。”孙乐说,这让知识图谱的积累速度大大增加,后续网络、互动网络等也采取了类似的知识搜集方式,发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加,无数的知识从四面八方赶来,迅速集聚,只待“成塔”。

面对如此大量的数据,或者说“文本”,知识图谱的构建工作自然不能再手工劳动,“让机器自动抽取结构化的知识,自动生成‘三元组’。”孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可识别的知识。

孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为“知识”,但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“网络知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象,并进行统一的数据清洗、对齐、融合、关联等知识计算,完成图谱的构建。“但是大家发现,基于维基网络,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说,例如谷歌的Knowledge Vault,以及美国国家标准与技术研究院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。

在权威的“知识库自动构建国际评测”中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗联合团队获得综合性能指标第3名,事件抽取单项指标第1名的好成绩。

“我国在这一领域可以和国际水平比肩。”孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降低了文本知识抽取工具构建模型的成本,并提升了性能。

终极目标:将人类知识全部结构化

《圣经·旧约》记载,人类联合起来兴建希望能通往天堂的高塔——“巴别塔”,而今,创造AI的人类正在建造这样一座“巴别塔”,帮助人工智能企及人类智能。

自动的做法让知识量开始形成规模,达到了能够支持实际应用的量级。“但是这种转化,还远远未达到人类的知识水平。”孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应该与时俱进地体现在机器“脑”中。

“因此知识图谱不会是一个静止的状态,而是要形成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。”孙乐说。

资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;网络记录词条数1000万个,网络搜索中应用了联想搜索功能。

“在医学领域、人物关系等特定领域,也有专门的知识图谱。”孙乐介绍,Kinships描述人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描述了医学概念之间的联系,135个实体,49种关系,6800个事实。

“这是一幅充满美好前景的宏伟蓝图。”孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。

尽管令业内满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”还只是在基础层面,但相关的应用已经显示出广阔的前景。例如,在网络输入“冷冻电镜”,右竖条的关联将出现“施一公”,输入“撒币”,将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。

B. 语义网的研究趋势

语义网是网络时代的高级智能产物,其应用广泛,有着美好未来。下面将介绍主要应用技术与研究趋势。
经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多,会使得自底向上的方法更加引人注目。尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上,今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜索引擎。
自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。在自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达),Alex HAS a brain (属性表达),and Alex IS the father of Alice,Lilly,and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而着称的,同时它也是很复杂的。当前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。Microfomats提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的标签。Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr,Eventful,LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于书的页面,已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。
关于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。
已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。
企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。
从企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样,基于XML的数据库承载了太多的期望,让我们拭目以待。
语义API是随着语义网的发展而发展的,这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的Hacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹),输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个图片出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。
可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。越来越多人意识到对搜索技术边缘化的改进是很难击败google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用户可以决定他们对哪些类别感兴趣。搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。让我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想象上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue,ThumbStrips,Cooliris与BlueOrganizer等。
语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们与网络信息交互方式的期望。
语义网的高级阶段使得图书馆,售订票系统,客户管理系统,决策系统均能发挥很好的效果。譬如要出去旅行,只要把具体时间要求与自己喜爱的国内旅游类型提供给语义网支持的查询系统,那么很快相应的国内景点,最佳旅游方案与注意事项,提示以及旅行社的评价均能很快速得准备在浏览器页面上。
语义网终会把网络的高级阶段应用到世界的每一个角落,每个人均有自己的网络IP一样的身份证明.个人消费信用、医疗、档案等等全在自己的网络身份里面。同时网络社区更比现实社区更有活跃力,网络社会更有秩序、更和谐。

C. 语义信息的存储

无论是知识库还是服务的语义描述都需要具有良好的组织和存储,以支持高效推理和服务检索发现。目前对于本体的存储方法基本有三种(李勇等,2008):

(1)纯文本,如 OWL 文件。由于 XML 的信息组织和存储方式结构复杂,而且存在冗余等,基于其上的查询检索效率通常会比较低。纯文本的方式适合本体比较小的时候,不适合本体大规模应用的情况。

(2)数据库: 是一种比较好的持久化存储方式,最大好处是便于查找,可存放大本体,查询效率高,特别在 I/O 效率上。但是数据库方式存在本体查询语言到 SQL 的转换问题,需要借助于第三方中间件或自定义实现。

(3)专门的管理工具: 比如说 OMM(Ontology Middleware Mole)支持对 RDF、OWL 的存储管理,还提供各种接口,可以使用查询语言对 RDF 或者 OWL 进行查询。综合对比这三种本体存储方式,由于关系数据库存储几十年的技术积累,以及它的海量存储特点而成为了许多研究者的首选。

5.4.3.1 本体的关系数据库存储模式

由于本体模型和关系模型的差异,目前存在多种在关系模型中存储本体的方法,其主要可以分为以下四类(陶皖等,2007; 陈光仪,2009)。

5.4.3.1.1 水平模式

该模式只在数据库中保留一张通用表,表中列为本体中的属性。整个本体库中定义了多少个属性,这张表就有多少个列,具体如图 5.28 所示。本体中的每个实例对应该表中的一条记录。这种存储模式结构简单,执行查询操作比较方便。但是该通用表包含了大量的列,而现有的数据库系统对一张表中列的个数都是有限制的,所以该模式无法存储规模较大的本体。而且表中的数据过于稀疏。由于每个实例对应关系表中的一行,如果其在某些属性列上没有值,那么必须将对应的属性值设置为空,这将导致大量空字段的出现,不仅浪费存储空间,而且增加了索引维护的代价。另外该通用表中一个实例的属性和属性值只能是一对一,而实际情况往往是一对多,因此无法存储具有这种特征的本体。随着应用中本体的进化,还需要时常更新通用表中的列,重新组织表结构,这将耗费极大的系统代价。

图 5.28 水平存储模式

5.4.3.1.2 垂直模式

垂直模式包含一张三元组表,表中的每条记录都对应一个 RDF 三元组(主语,谓词,宾语),具体如图 5.29 所示。因此这种模式下,需要将本体中的所有信息都以 RDF 三元组的形式表示出来。Protege(2002)中便是使用了这种存储模式将本体存储于数据库中。这种模式设计简单,并且结构稳定。如果本体进行了更新,只需修改表中相应的元组即可。另外,该模式通用性好,因为现有的本体模型都可以转换为 RDF 模型表示。但是这种模式的可读性较差,若对本体信息进行查询,那么设计对应的 SQL 语句比较麻烦。除此之外,由于所有信息都存放在三元组表中,导致任何一个本体信息查询都必须遍历整个数据表,特别是那些需要进行表连接的查询,使得查询效率非常低,这是这种模式最大的不足之处。

图 5.29 垂直存储模式

5.4.3.1.3 分解模式

该模式与水平模式和垂直模式的一个显着的区别是它使用了若干张表,其基本思想是将数据库进行模式分解。根据分解的对象不同,现有的采用分解模式的方法有两种。①基于类的分解模式,即为本体中的每个类都创建一张单独的表,表名为类名,表的列为类的属性,具体如图 5.30 所示。这种模式结构清晰,但是很难适应本体动态变化的情况,因为随着本体中类或者属性的变化,表结构都要随着变化。②基于属性的分解模式,即为本体中的每个属性创建一张单独的表,表名为属性名,每个表都包含两个列,分别代表RDF 三元组中的主语和宾语,具体如图 5.31 所示。在该模式中对类的隐含实例的查询代价很大,而且在现有的这两种分解模式的方法中,随着本体的变化都要不断的创建和删除表,而在数据库系统中创建和删除表的效率很低。

图 5.30 按类分解模式

图 5.31 按属性分解模式

5.4.3.1.4 混合模式

该模式通常将上述几种模式进行混合使用。例如,Pan 等(2003)提出这样一种将基于类的分解模式与基于属性的分解模式混合的存储模式,即在本体中定义一个类就为该类创建一个表(创建方法类似于基于类的分解模式),在本体中定义一个属性就为该属性创建一个表(创建方法类似于基于属性的分解模式)。然而,与基于类的分解模式不同的是,该混合模式在类对应的表中不记录相应实例的所有信息,而只记录实例的 ID。实例在各个属性上的取值则分别记录在各属性对应的表中,所以和基于属性的分解模式类似,该模式在属性对应的表中仍然需要两列: 主语和宾语。对于本体类数目不多的情况下,这种模式在简单检索的情况下,运行得很好。但是,如果本体的类比较多,这种方式就会存在一些问题,例如: 数据库无法容纳这么多表,或者效率低下。

针对上述四种模式,陈光仪(2009)从四个方面对适用场合、查询和更新效率、结构清晰以及易理解性、可扩展性四个方面对他们进行了综合对比(表 5.4):

表 5.4 不同存储模式的综合对比

(修改自陈光仪,2009)

通过上述对本体存储模式的阐述及之间的综合对比发现,本体存储模式除了应该具有尽量高的规范化程度(例如满足第三范式或 BCNF 范围等),还应该满足以下三个原则。

(1)模式结构易于理解。该原则是为了便于本体查询的实现。如果模式结构不直观,会给查询语句的设计带来困难。例如,垂直模式不满足该要求,它将所有的信息都采用三元组的形式存储在一张表中,不容易理解表中元组的含义,加重了本体查询设计的负担。

(2)模式结构稳定。即本体的变化不会引起数据库表结构的变化。因为本体是不断进化的,如果设计的模式结构会随着本体的变化而变化,数据库系统对其维护代价太大。现有的水平模式、分解模式和混合模式都不满足该要求。

(3)查询效率高。该原则是评价各种存储模式的一个重要指标。因为本体中不仅包含大量的数据,而且查询中还经常需要进行表连接。例如在现有的垂直模式和基于属性的分解模式中,那些涉及表连接的查询效率非常低。

目前在基于数据库的本体存储的实践上,一些学者开展了相关的研究工作:

燕云鹏(2007)和陈光仪(2009)提出了类似的针对于针对 OWL 的本体数据库的混合本体存储模式(图 5.32,5.33)。可以看出这种模式是以基于属性的分解模式与垂直模式的混合体,具有较好的扩展性。但是存在的问题是效率不够高,所有的类存储在一个表中,所有的实例也存储在一个表中,这种方式的检索效率比较低。另外存储实例的表(Instance,Proterty,Value)中字段 Value 必须存储许多种不同类型的数值,比如有的是文本型,而有的却是数值型,使得数据不够清晰。此外,在针对几何体这种复杂的地理对象,这种字段就比较难以存储。

图 5.32 本体的数据库混合存储模式(据燕云鹏,2007)

ebRIM(ebXML Registry Information Model)是一个主流的信息注册模型,已成为事实上的标准,得到了 OGC 等支持。OGC 已经实现了基于 ebRIM 的目录服务,并推荐其作为目录服务的实现规范。但是目前基于 ebRIM 的目录服务只支持普通的基于关键字的检索。为此,一些学者已经开始研究如何扩展 ebRIM 实现对语义信息特别是 OWL 的注册。Dogac 等(2004)提出了如图 5.34 所示的一种通过将 XML 形式存储的 OWL 文件转换为以数据库形式存储,使得查询检索更加快速,管理维护也更加方便。为了能在 ebRIM 存储复杂的地理空间信息对象,一些学者开展了基于 ebRIM 的地理扩展方面的研究工作。乐鹏(2007)在其论文中提出了两种扩展方式: ① 从类 “ExtrinsicObject” 派生了“CSWExtrinsicObject”来描述那些不是 ebRIM 自身定义的元数据对象。比如类 “Dataset”继承了 “CSWExtrinsicObject”来描述空间数据集。②对 ebRIM 已有的类别增加 “Slot”。每一个从 “RegistryObject”继承下来的类均允许添加 “Slot”。ebRIM 中的 “Service”类可以用来描述空间服务,但是已有的属性不足以描述空间网络服务。因此,通过添加“Slot”到 “Service”类中以定义从 ISO 19119 派生的属性。如图 5.35 所示为经扩展后的ebRIM 高层模型图,其中 灰 色 填 充 的 矩 形 框表示 扩 展 的对 象 类。该 模 式 与 前 面 燕 云 鹏(2007)和陈光仪(2009)提出的模式相比,本质上差别不大,也是以基于属性的分解模式与垂直模式的混合体,只不过是基于标准的 ebRIM 注册模型,并且将其中的分类系统相关的类单独以两张表存储。该模式也具有很好的扩展性,也存在同样的一些问题。

图 5.33 本体的数据库混合存储模式(据陈光仪,2009)

海洋信息网格技术与应用

续表

5.34 OWL 元素到 ebRIM 元素的映射(Dogac et al.,2004)

5.4.3.2 基于多分解策略的混合存储模式实现

对知识库以及服务语义注册信息的存储的实现上,本书在现有的研究成果的基础上,结合本体组织构成及特点等实际需求,提出了一种基于多分解策略的混合关系数据库存储模式。

该方法的指导思想是: 先按类对其中的数据专题、数据模式、处理模型等进行类的分解,然后结合属性的特性进行基于属性的分解。其中基于类的分解中,可能粒度的大小不一,可能是一个类或者具有相关或相似的一些类划分为一张表存储; 而基于属性的剖分,也并不是所有具有该属性的类以一个表存储,而可能是只针对一个类也单独组织为一张表,其具体思路如下:

图 5.35 经扩展的 ebRIM 高层模型图(据乐鹏,2007)

(1)类的分解: 因为本研究的存储模型不是为了实现一个通用的本体存储模型,而是为了实现一个服务于海洋信息服务领域的本体存储模型。海洋信息服务领域必然会牵涉到一些对象,比如对服务、模型、参数等对象,并且对这些对象的认识也基本上确定(也就是说这些对象类所具有的属性及之间的关系基本明确),所以没必要像上面几种实现方案那样因为不能预知都有哪些类,各类都有哪些属性而将所有的实例的组织按垂直方式进行存储,也没有必要有一些表(比如独立的属性表,属性的作用域和值域表等); 而有必要针对海洋信息服务领域内的这些类的信息内容独立出一些表: 对于海洋专题,地理名实体、处理模型、数据模式等海洋信息检索发现中常用的对象,则有必要进行分开存储,否则必然使得结构不清晰,且检索查询效率低。

(2)对于专题、空间形态以及模型功效等只是简单的分类系统,所具有的属性少,而且今后存在派生新的种类的可能,因此必须具备一定的扩展性。针对这类数据。它们的存储方式是(ClassID,ParentClassID,ClassType),其中 ClassType 标注本体类是属于专题(比如 “海流”)或者其他。

(3)对于取值不唯一的属性,且大部分类或实例都具有的属性,则采用基于属性的分解模式。比如对于别名属性(hasAliasName),有可能一个类实例具有多个别名,这种情况下,则采取基于属性的组织方式。该表的形式是:(OntologyID,AliasName),其中OntologyID 可以是本体类的 ID,也可以是本体实例的 ID,还可以是本体属性的 ID,因为类、实例和属性都可以有别名。

(4)对于复杂的属性,采取大二进制存储的方式。比如对于地名实例的空间覆盖范围,则不考虑其实际内部是包含多少个组成部分,统一按一个 shape 存储在数据库中。当然这里借助了 ArcGIS 的 GDB 的 FeatureClass 矢量数据模型,并对于不同空间形态的则采用了多张表(点状地名类、线状地名类、面状地名类),其组织方式是(GeoNameObjec-tID,shape)。同样,对于模型本体中的内部流程本体,也采用了大二进制方式存储,将整个流程 XML 描述文件,作为一个整体存放于字段中,其大体组织方式为(ModelID,FlowXML)。

(5)本研究采用 ArcGIS 的 GeoDatabase 作为存储模型。本体类(ontClass)的存储结构如图 5.36 所示,数据库的总体组织结构如图 5.37 所示。

图 5.36 本体类(onClass)的存储结构

D. 问一下.用D2RQ将数据库的内容转化为虚拟的RDF..这个可以用来做本体的建立吗

您好,D2R 便是其中一个非常流行的工具。它的作用是一个将关系型数据库发布为 Linked data。D2R 主要包括 D2R Server, D2RQ Engine 以及 D2RQ Mapping 语言。
D2R Server 是一个 HTTP Server,它的主要功能提供对 RDF 数据的查询访问接口,以供上层的 RDF 浏览器、SPARQL 查询客户端以及传统的 HTML 浏览器调用。
D2RQ Engine 的主要功能是使用一个可定制的 D2RQ Mapping 文件将关系型数据库中的数据换成 RDF 格式。D2RQ engine 并没有将关系型数据库发布成真实的 RDF 数据,而是使用 D2RQ Mapping 文件将其映射成虚拟的 RDF 格式。该文件的作用是在访问关系型数据时将 RDF 数据的查询语言 SPARQL 转换为 RDB 数据的查询语言 SQL,并将 SQL 查询结果转换为 RDF 三元组或者 SPARQL 查询结果。D2RQ Engine 是建立在 Jena(Jena 是一个创建 Semantic Web 应用的 java 平台,它提供了基于 RDF,SPARQL 等的编程环境)的接口之上。

E. 图谱只有图吗

知识图谱源于语义网,将自然语言文本中描述的知识按照三元组的方式进行描述与表示,从而让计算机可以进行存储、计算与应用。其主要数据模型是RDF数据模型。由RDFS于OWL提供模式(schema)的描述方法并支持推理。知识图谱可以认为是以RDF或属性图表示的知识数据本身。其可以用图数据库存储也可以用其他数据库存储。2000年的时候Neo4j为了解决多媒体关系系统中schema 经常会发生重大变化的问题,提出了用图的方式进行数据的组织、存储与应用。经过发展于2010年正式提出了属性图模型。属性图数据模型跟RDF数据模型的起源于发展是两条线,只不过因为属性图更加易于理解并且通用(更接近通用的图抽象方法)知识图谱也可以用属性图模型存储。知识图谱中常用的RDF模型可以认为是图在语义方向的一种特种模型。

F. 什么是web2.0

要理解WEB2.0,先得看WEB的历史。 World Wide Web,简称WWW,是英国人TimBerners-Lee 1989年在欧洲共同体的一个大型科研机构任职时发明的。通过WEB,互联网上的资源,可以在一个网页里比较直观的表示出来;而且资源之间,在网页上可以 链来链去。在WEB1.0上做出巨大贡献的公司有Netscape,Yahoo和Google。 Netscape研发出第一个大规模商用的浏览器,Yahoo的杨致远提出了互联网黄页, 而Google后来居上,推出了大受欢迎的搜索服务。

搜索最大的贡献是,把互联网上海量的信息,用机器初步分了个线索。但是,光知道网页里有哪些关键字,只解决了人浏览网页的需求。所以,Tim- Berners-Lee在提出WWW不久,即开始推崇语义网(Semantic Web)的概念。为什么呢?因为互联网上的内容,机器不能理解。他的理想是,网页制作时和架构数据库时,大家都用一种语义的方式,将网页里的内容表述成机 器可以理解的格式。这样,整个互联网就成了一个结构严谨的知识库。从理想的角度,这是很诱人的,因为科学家和机器都喜欢有次序的东西。Berners- Lee关心的是,互联网上数据,及能否被其它的互联网应用所重复引用。举一个例子说明标准数据库的魅力。有个产品叫LiberyLink。装了它后,到 Amazon上去浏览时,会自动告诉你某一本书在用户当地的图书馆能否找到,书号是多少等。因为一本书有统一的书号和书名,两个不同的互联网服务 (Amazon 和当地图书馆数据库检索)可以公享数据,给用户提供全新服务。

但是,语义网提出之后,曲高和寡,响应的人不多。为什么?因为指望要网页的制作者提供这么多额外的信息去让机器理解一个网页,太难;简直就是人给机器 打工。这违反了人们能偷懒就偷懒的本性。看看Google的成功就知道。 Google有个Page Rank技术,将网页之间互相链接的关系,用来做结果排序的一个依据,变相利用了网页制作人的判断力。想一想网页的制作者们,从数量来说,比纯浏览者的数 量小得多。但Google就这一个革新,用上了网页的制作者的一部份力量,已将其推上了互联网的顶峰。

所以互联网下一步,是要让所有的人都忙起来,全民织网,然后用软件,机器的力量使这些信息更容易被需要的人找到和浏览。如果说WEB1.0是以数据为核心 的网,那我觉得WEB2.0是以人为出发点的互联网。 我们看一看最近的一些WEB2.0产品,就可以理解以上观点。

Blog: 用户织网,发表新知识,和其他用户内容链接,进而非常自然的组织这些内容。

RSS: 用户产生内容自动分发,定阅

Podcasting: 个人视频/声频的发布/定阅

SNS: blog+人和人之间的链接

WIKI: 用户共同建设一个大网络全书

从知识生产的角度看,WEB1.0的任务,是将以前没有放在网上的人类知识,通过商业的力量,放到网上去。WEB2.0的任务是,将这些知识,通过每个用户的浏览求知的力量,协作工作,把知识有机的组织起来,在这个过程中继续将知识深化,并产生新的思想火花;

从内容产生者角度看,WEB1.0是商业公司为主体把内容往网上搬,而WEB2.0则是以用户为主,以简便随意方式,通过blog/podcasting 方式把新内容往网上搬;

从交互性看,WEB1.0是网站对用户为主;WEB2.0是以P2P为主。

从技术上看,WEB客户端化,工作效率越来越高。比如像Ajax技术, GoogleMAP/Gmail里面用得出神入化。

我们看到,用户在互联网上的作用越来越大;他们贡献内容,传播内容,而且提供了这些内容之间的链接关系和浏览路径。在SNS里面,内容是以用户为核心来组织的。WEB2.0是以用户为核心的互联网。

那么,这种意义上的WEB2.0,和Tim Berners-Lee的语义网,有什么不同呢?语义网的出发点是数据的规整及可重复被机器调用,提出使用语义化的内容发布工具, 试图从规则和技术标准上使互联网更加有序。 Google等搜索引擎,在没有语义网的情况下,尽可能的给互联网提供了线索。 WEB2.0则是鼓励用户用最方便的办法发布内容(blog/podcasting),但是通过用户自发的(blog)或者系统自动以人为核心(SNS) 的互相链接给这些看似凌乱的内容提供索引。 因为这些线索是用户自己提供,更加符合用户使用感受。互联网逐渐从以关键字为核心的组织方式和阅读方式,到以互联网用户的个人portal(SNS)为线 索,或者以个人的思想脉络(blog/rss)为线索的阅读方式。WEB2.0强调用户之间的协作。WIKI是个典型例子。从这个角度看,互联网是在变得 更有序,每个用户都在贡献:要么贡献内容,要么贡献内容的次序.

对下一代互联网的看法,还会有很多的讨论。有一点可以肯定,WEB2.0是以人为核心线索的网。提供更方便用户织网的工具,鼓励提供内容。根据用户在 互联网上留下的痕迹,组织浏览的线索,提供相关的服务,给用户创造新的价值,给整个互联网产生新的价值,才是WEB2.0商业之道。

CODE:

Web关键字

[Web起源]World Wide Web,简称WWW,是英国人TimBerners-Lee 1989年在欧洲共同体的一个大型科研机构任职时发明的。通过WEB,互联网上的资源,可以在一个网页里比较直观的表示出来;而且资源之间,在网页上可以链来链去。

[Web1.0]在WEB1.0上做出巨大贡献的公司有Netscape,Yahoo和Google。 Netscape研发出第一个大规模商用的浏览器,Yahoo的杨致远提出了互联网黄页, 而Google后来居上,推出了大受欢迎的搜索服务。搜索最大的贡献是,把互联网上海量的信息,用机器初步分了个线索。

[语义网络]Tim-Berners-Lee在提出WWW不久,即开始推崇语义网(Semantic Web)的概念。为什么呢?因为互联网上的内容,机器不能理解。他的理想是,网页制作时和架构数据库时,大家都用一种语义的方式,将网页里的内容表述成机 器可以理解的格式。

[Web2.0]WEB2.0是以人为核心线索的网。提供更方便用户织网的工具,鼓励提供内容。根据用户在互联网上留下的痕迹,组织浏览的线索,提供相关的服务,给用户创造新的价值,给整个互联网产生新的价值。

Web 2.0真的会改变了互联网吗

经过10年发展后,人们通过互联网已经可以完成比之前多得多的工作,得到更丰富、更精确、更迅捷的反馈,以及更加美妙的体验。然而再过10年我们会发现媒 体,无论报纸、电视还是互联网,与现在都完全不同,手机而不是纸或pc成为最常用的载体;看电视不再是被动的收看电视台播放的节目而是自己订阅的,而节目 呢也许是某个人自己摄制的;你也可能在电视或者网络上看到你的手机在不经意间拍摄上传的画面,并因此获得一笔不菲的酬劳。这不是呓语,也不是幻想,这是 Web2.0给我们展现的互联网,届时上网将不再是简单的游戏或者阅读,网络将提供各种服务,无论是银行支付、旅游出行还是搜索爱情。

Web2.0对Web1.0的冲击

在web1.0时代信息的生产没有脱离传统的信息生产模式,即:记者-编辑-发布的精英模式;但web 2.0却完全颠覆了这个模式,麻省理工的《技术观察》称web 2.0"......在强调分众传播的对等信息交互,也就是信息接受者同时也是这些信息的创造者,若干的博客汇集成新的信息输出者,每个人在挤奶的时候还 要喝奶,这其中自身的商业循环,绝不可能以浅薄的收费服务或者广告来衡量。"

首先挑动这种变化的就是blog,也称博客,这是web2.0中最为人所熟悉的元素。互联网上很早就他的影子,但在人们的观念中它只是主流媒体的一种补充,不过今年发生的一系列事件正在改变人们对它的看法:blog正在成为一种主流媒体。

如果说发生在今年2月发生的印度洋海啸,博客还只是传统媒体的补充的话,那么半年后发生的伦敦系列爆炸案中,博客正式成为一种主要的报道方式,简单精确的 图片,简短直接的文字,在第一时间将新闻事件报道传至自己的博客中,人们开始习惯通过博客获得信息,而不是电视或者报纸,甚至不是门户网站。

除了个人博客外,博客也开始进入企业家的视野,进而形成企业博客。今年9月Google推出"Google与李开复博士"中文博客,对李开复跳槽引发的纠 纷都可以在这里查询和提问。同样微软也鼓励员工们写博客。通用公司副总裁鲍勃·鲁兹的"快车道"博客,已经成为通用公司与公众沟通的重要场所。正在这么做 的公司还有Sun、宝洁、波音公司等。博客正在逐步颠覆传统的新闻媒体。

在形形色色的文字博客之外,还有一种新的"博客",可以发布声音和图像的"博客",在Web2.0家族中被称为播客(Podcast)。它是收音机、iPod、博客和宽带互联网的集体产物。用最简单的方式描述,播客就是用嘴写,用耳朵看的博客。

对大多数中国人来说,播客还是新鲜事,在今年上半年国内还只有屈指可数的几家播客网站,但笔者近日在Google中搜索播客,得到318,000条结果, 在网络中得到1,570,000条结果其中不少是播客网站或频道,虽然如此播客目前在国内还是面临几年前博客网站类似的局面,但在美国,2005年播客的 人数将达到450万,而2010年这个数字将达到惊人的5680万。而传统广播公司、电视台、互联网站都从其中看到了机会和威胁。

我们也许可以从早期互联网的网络电台中找到播客的身影,但播客与网络电台最大的不同在于,它采用rss2.0可以订阅模式,不再是单纯的音频文件,任何p2p文件都可以成为播客,任何个人都可以制作节目发布广播,任何拥有mp3、智能手机的人都可以自由的收听播客节目。

相对于传统广播或者电视台而言,播客不需要频道资源,不需要大量的设备,数码摄像机、录音软件、麦克风等目前家庭常用设备就可以帮助你成为一名播音员或节目主持人,播客们常说每一名读者就是一名博客,那么每一名听众也就是一名播客。

播客的内容制作和收听方式极具个性化,打破传统的广播方式,因此它一经诞生,就受到传媒的注意,目前,海外广播公司纷纷开始增加播客节目,美国波士顿公共 电视台、加拿大多伦多音乐电台以及英国BBC公司都开通了正常的播客服务,美国卫星广播公司也将启动播客节目。同时播客也在影响娱乐界,唱片公司开始通过 播客建立歌手与歌迷之间的联系,不过这仅仅是开始。

互联网迈向个性化时代

在Web 1.0时代,网站之间是互不相通的,各网站自行其道,但在Web2.0时代借助rss和xml技术,实现网站之间的交流。Sina点点通、雅虎的my yahoo就加入数十家网站的内容,读者可以根据自己的喜好,自由选择信息。

但这一切还仅仅是表面现象。Web2.0倡导的个性化,与传统网站的个性化有本质的区别。在传统门户网站中,个性化意味着页面设计风格和内容组织方式而非 内容本身,不管怎样都没有脱离大而全的中心门户的特点。web 2.0倡导的个性化则意味着精而专,网站之间有明确的分工,好像同样报道超女,有人只做李宇春的新闻,有人只做张靓影的新闻一样,通过RSS将其组合起 来,这时的RSS就起到门户网站的作用,不同的是其中的内容都是你自己选择的。

更精彩的还在于,个性化已经由用户层面进入企业服务层面,IT精英们已经在实践个性化服务。美国房地产交易地图网(HousingMaps.com)是目 前美国最受欢迎的房地产交易网站之一。它的特点就在于把时下流行Web2.0式网站craigslist的租房信息和Google Maps结合起来,以可视图钉的方式将全美房屋交易信息详细现实出来。

简而言之,web 2.0时代的个性化不是原来的网页个性化,而是服务个性化,我们面对的将是一个全新的个性化互联网。

技术引领Web 2.0

一直以来技术人员都有这样一个设想,与其安装昂贵的软件,不如通过互联网来使用安装在服务器上的软件。Web 2.0中的AJAX技术使这种设想成为可能。

·AJAX赋予软件新面孔

AJAX的全称是Asynchronous JavaScript and XML,它不是一种技术而是数种技术的组合。AJAX采用远程脚本调用技术,通过JavaScript语言与XMLHttpRequest对象来实现数据 请求,将处理由服务器转移到客户端,减少了服务器的资源占用,加快了数据处理的速度。采用AJAX开发的软件能让你在使用网络应用软件时感觉就象在本机上 一样。

目前AJAX技术已经广泛应用于网络应用软件开发中,Google也许是AJAX技术开发投入最大收获最多的公司,AJAX已经成功应用于GMail、Google Suggest和Google Maps等网络应用软件中。

除了Google以外还有更多的公司在采用AJAX。在AJAX的帮助下Zimbra公司开发的电子邮件中,比GMail和HotMail更加互动。 Meebo.com公司也在即时通讯软件中采用AJAX技术,以创造更好的用户体验。即使微软也不能阻挡AJAX的魅力,微软声称将在下一代 HotMail中加入AJAX工具条。

·开放API

以前的开放API(应用程序接口)主要指桌面应用软件,希望通过开放API融合更多的应用。在WEB1.0时代只有少数网站,比如EBAY, 亚马逊公司(Amazon)、雅虎公司、Google公司等,在设计之初就遵循各种工业化标准,进而开放API接口,正是由于这些开放的API,他们获得 了不少有趣、有意思的应用。但大多数公司当时还没有这种意识,不过在Web 2.0时代,开放API已经成为不可忽视的趋势。

对于公司来说,技术领域的竞争已经演化为标准之争,标准的形成在于有多少人在使用,因此开放API就意味更多的人采用,也就意味着标准。Google公司 显然深谙此道。它所推出的诸多产品都是基于开放的API标准。最典型的例子就是Google map,开放Google Map的API后,Google公司无需花费力气做更多的市场推广,其他公司就会主动地整合它的应用。如前文我们提到的美国房地产交易地图网就是在其网站 中主动整合Google Map。正是看到开放后的巨大前景,微软、雅虎、Skype也纷纷加入其中。

·软件向互联网转变

在盗版最猖獗的时候,软件开发商曾经提出一个设想:免费软件,有偿服务;这个设想今天看来有望实现。

在美国诞生了一批新公司,其中就有Upstartle,该公司开发出了一种基于网络的文字处理软件Writely,进入该公司的网站,注册后就可以开始写 作,文档可以保存在该公司的服务器上,然后可以在任何地方打开。这种基于网络的文字处理系统很快吸引了大批用户,一度导致服务器堵塞。与writely相 同字处理软件还有goffice,Google也在加紧开发他的在线文字处理软件openoffice。

而软件霸主微软的参与也许更有震撼性。不久前微软宣布将推出Live战略,此战略以其旗舰产品Windows操作系统和Office办公软件为基础,打造 Live.com平台,在此平台上通过互联网向用户提供软件服务。在这个战略下微软将为Live捆绑多种软件,而且完全免费,通过广告和定购方式获取利 润,这是微软自.net以后的又一次战略转变,也标志着软件业向服务业转变的开始。

后Web 2.0更值得期待

我们今天所谈论的web 2.0应用只是web 2.0初级阶段的应用,很多web 2.0应用的商业模式还处于晦暗不明中,web 2.0的倡导者们还在苦苦寻觅合适的商业模式,我们唯一可以肯定的web 2.0是互联网发展的必然方向,他带来的冲击将不仅仅局限于互联网,很可将全面改变我们现在的生活和工作方式。

·Web 2.0改造传统电视

宽带的迅速发展使网络电视的普及成为可能,敏锐的互联网精英们纷纷把目光投向IPTV,希冀再挖掘一座金山,但如果以传统的电视台模式来发展IPTV,必然陷入高投入,低产出的怪圈,但以web 2.0的理念来发展IPTV则可走出这个怪圈。

数码产品的发展使用户制作电视节目的设备费用大幅降低,后期制作软件也可以免费从网络上下载,用户可以自己制作节目,然后将节目上传,由观众自由订阅,网站进而可以对高收视率节目实行收费,如此就改变了传统电视中观众只能被动收看节目的模式。

·网站小型化成为可能

WEB 2.0倡导专业模式使网站小型化成为可能。在web 1.0时代,网站无不走大型化道路,比拼的是编辑数量,网站规模,web 2.0的社会化、开放化的特性使中心不再成为必需,相反共同参与,使信息来源更加丰富更专业;而且小型化网站成本更容易控制。

与小型网站类似的个人网站将成为互联网的另一大特色。技术门槛的下降使个人建站更加容易,即使不知道HTML也可以轻松的搭建个人电台、个人电视台、个人DJ、个人游戏、个人商店将充斥互联网,甚至还可以拥有个人聊天工具,只有你的好友才知道。

·无线应用成为web 2.0应用的下一个扩展空间

中国是个手机大国,手机拥有量已经超越美国,无限互联网的发展迅速,另一方面,网络终端小型化十分迅速,手写输入技术的应用使使用手持设备进行书写变得十分便捷。

一些web 2.0网站已经将移动博客栏目,但博客只是先行者,只是移动web2.0的初级阶段,更多的应用还将陆续产生,如播客、移动商务。

移动web2.0一旦发展起来,好处是显而易见的,因为他的客户个体更易确认,服务更加精确。

结束语

现在的互联网是一个单向的互联网,Web 2.0正在将互联网改造成为以人为中心的多向的互联网,网络反过来也在改变我们的工作和生活方式,也许将来SOHO将成为主要的工作方式,外出也不再需要旅行社的安排,因为你可以通过互联网安排好一切。

Web 2.0带来的冲击将不会仅仅局限于互联网或者媒体,它对我们的影响也许比你想象的还要大,美国《商业周刊》认为,从软件业、电信业、媒体业、市场营销业到娱乐业,几乎都将受到了这股趋势的强烈冲击,并且即将发生翻天覆地的变化。

Web 2.0下的门户网站建设

博客的出现之所以被称为网络世界的革命,是因为其极大的降低了建站的技术门槛和资金门槛,而使每一个互联网用户都能方便快速的建立属于自己的网上空间。随 着配套应用的快速发展,个人博客将在很短的时间内加速成长为类门户型的微型个人网站。博客走进千家万户和各行各业,从而将形成基于个人或小团体的以内容为 导向的群体,而其中一定会出现的佼佼者将在很大程度上从门户频道乃至专业网站手里夺走部分甚至大部分读者。这在IT业界和互联网行业正在得到验证。

Web2.0的定义,我认为是在web1.0的服务基础上,是互联网络用户从信息接受者转变成为信息制造者和传播者,从受众转向主体,从单个个体转向 社团的新型互联网服务模式。在这种情况下,为用户提供优秀的发布平台、便捷的沟通和展示平台、顺畅的进入和退出机制、高效的信息整合机制变的与提供高质量 信息一样重要,甚至更加重要。Web2.0时代的竞争,将不仅仅是内容的竞争,而是综合服务的竞争,其中的关键点包括以上的数个方面。博客是web2.0 的最主要的代表。
[文摘]web2.0是一个读写的互联网、一个依靠链接组织起来的互联网。

一边是写,写的人活跃在各种各样的“节点”上,使用各种工具向互联网上传递着数字化的内容,这些内容被保存在数据库、文件系统,甚至是行动中的手机、 PDA;一边是读,读的人活跃在各种各样的“主页”上,这里的“主页”已经不能简单的称呼为某个网站的主页,而是互联网上N个活动的节点的主页,一个“主 页”上的内容,可能来自几十个节点,“主页”的编写者同节点的所有者一样,也在使用各种各样的工具,从节点读取内容,“主页”的编写者的主要工作已经从创 造内容变成了收集和整理内容。

博客

博客的出现,在很大程度上满足了用户由单纯的信息接受者向信息提供者转变的需要,从而得到快速的发展。博客通过RSS、博采、Trackback、 TAG等技术,在个体之间已初步形成了社团氛围和初步的社团机制。可以预见,博客服务提供商们将能提供更多的技术手段来加强这种社团性联系,如SNS等。 博客圈子的形成,将在另一层意义上大规模提高其内容产生质量和数量。

互动

博客与互联网络的互动、博客之间的互动客观上要求BSP提供商适时提供博客与博客网站之间的互动,需要博客网站为博客提供展示自己的舞台。只有这种互 动,才能将博客内容提供质量提高,而进一步深化博客信息质量。从某种程度上说,博客网站的门户效应将极大影响某类博客的发展态势和发展程度,而博客门户也 会因为博客发展程度的原因而停滞或加速发展。两者相辅相成。

在国内现有BSP竞争格局下,单纯的BSP服务和单纯的门户内容提供模式都是缺乏竞争力的。必须把两者结合起来,这就需要从博客网站和频道定位开始, 逐步强化互动意识,探索互动的方法和技术。Web2.0时代的门户频道建设虽应从传统门户借鉴成功的经验和做法,更重要的是要探索出一条新路,挖掘自身网 站博客的优秀内容。才能使2.0门户拥有大大超越1.0时代门户的资讯生产能力和整合、吸纳传统门户优秀内容的能力。极端的说,即便有更好的产品来取代博 客,探索门户同博客的深度互动平台也必不可少。

[文摘] 随着支持RSS和XML-RPC的BLOG站点的兴起,WEB2.0的概念也跟着兴旺发达广为传播,就可以理解了。BLOG作为能够体现web2.0中 “节点”概念几乎全部要素的一种形式,是存储和输出数字化内容的最佳载体。但是,纵观国内BLOG站点,多数都是提供了输入数据的界面,却没有能有效的让 自己再次成为“节点”,实在是有些可惜。

博客相关技术

伴随博客出现而围绕博客服务的技术主要有:博采技术、内容聚合技术、同步技术、SNS技术和tag。博采技术为用户组织了随时摘取有用内容的有效工 具,其前提是用户认知到这个信息;RSS技术则将有用的信息源聚合起来,随时将信息源提供的信息发送到用户平台,Trackback技术则将博客团体内其 他成员的动向信息传递给用户,保持成员间的有效沟通;SNS技术用于凝聚社团的整体意识,tag是网民自主分类工具。可以说,基于博客单体的技术开发已形 成体系并走向深化。与此对应的是,博客网站门户和频道的技术实现还停留在零的状态,甚至连第一代门户的技术都不如。

[文摘]如果把wikipedia中的web 2.0的描述当成“定义”或者“经典”是非常片面的。 其实wekipedia并没有能下出一个定义,只是说明了哪些东西属于目前所说的web 2.0的技术:

CSS + XHTML

AJAX (最近很红火的新概念老技术,我自己的理解和定义是:通过网页内的javascipt调用来减少web页面刷新的必要性来提高web可用性的一种古老技术)

通过RSS/ATOM同步数据

通过RSS/ATOM聚合数据

友好的URL (例如uuzone的blog url: www.uuzone.com/blog/mao 而不是www.uuzone.com/app/showblog.do?blogid=91829&show=1&session= iuewqiyq32 之类的url)

支持按照blog的方式来发表 (说实话我不理解,为什么支持按照blog的方式来发表就算web 2.0 )

采用REST(Representational State Transfer)的API或者XML的web service (其实REST本身就是很古老,而且定义不是非常严谨的。 不过我一直非常欣赏REST方式的web serivce界面)

社会性,能把东西分享给朋友等 ( 这就算2.0? )

其中还说了一些更general的东西:

系统的数据交换要很容易

一些数据应该由用户创建和拥有

完全是web based.

博客门户与博客的相互促进和发展

与传统门户主要为浏览者提供及时有效的信息不同,web2.0时代的门户,将承担以下的功能:1,与传统门户相同的内容服务功能;2,激励或激发专业 博客生产内容;3,提供全息信息,聚合各方信息的功能;4,信息互动的功能;5,梳理信息功能;6,促进、激励博客群形成的功能;7,商业性的博客频道还 须建立商业链。只有不断的进行此类功能的开发,才能给博客门户带来持续的竞争力。

[文摘] 当网民们打开IE输入news.sina.com.cn就可以看到新闻的时候(请不要把我想象成为和你一样的有觉悟),他们还有什么理由要去费劲的搜集RSS种子?

Web2.0现在有了原旨主义者们,缺少的是“职业者”们,他们才会是实实在在推动Web2.0在中国更广泛发展的中坚力量,这些“职业者”才会是真正把Web2.0给大众化的使者。

没有大众化的Web2.0只会继续迟缓在中国的普及力度,空想构建出来后,更需要实践者们去身体力行,我想keso在某种意义上来说更像是Raymond,而不是Linus,而如今中国的Web2.0,缺少的正是Linus和Redhat。

Linus让我们在中文Web2.0上不至于落后,以至于我如今除了Blog,好使的都是国外的产品;Redhat则能让更多的中国普通网民用更易于接受的方式去把Web2.0用起来。

内容生产的革命性变化给博客门户内容生产部门带来的革新

博客门户内容生产的意义在于拣选信息和高效呈现。博客门户平台担负着用户互动和内容呈现两大任务。博客个人门户和博客网站大门户的互动,必须建立在基于博客相关技术(外部技术)和集取网站博客内容的网站内容管理系统(内部技术)之上。

程序

传统编辑在进行编辑工作时,其工作重点是把握文章质量、页面呈现质量、图片质量以及专题制作质量。而在2.0环境下工作的编辑,更重要的是通过技术上一系列的拣选机制,把相关于门户呈现的内容博客文章聚集起来,实现大门户和小门户的互动。

网络编辑2

G. 什么是元数据

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。

元数据作用是:

1、描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

2、元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。

元数据的应用举例:

1、数据结构:数据集的名称、关系、字段、约束等;

2、数据部署:数据集的物理位置;

3、数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;

4、质量度量:数据集上可以计算的度量;

5、度量逻辑关系:数据集度量之间的逻辑运算关系;

6、ETL过程:过程运行的顺序,并行、串行;

7、数据集快照:一个时间点上,数据在所有数据集上的分布情况。

(7)rdf图数据库扩展阅读:

元数据的优点:

1、自描述:元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向操作系统注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的可靠性。

2、设计:元数据提供所有必需的有关已编译代码的信息,以供用户从用不同语言编写的 PE 文件中继承类。用户可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。

H. 什么是元数据

元数据(Meta Data)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。

元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件 (PE) 文件或存储在内存中的程序进行描述。将您的代码编译为 PE 文件时,便会将元数据插入到该文件的一部分中,而将代码转换为 Microsoft 中间语言 (MSIL) 并将其插入到该文件的另一部分中。在模块或程序集中定义和引用的每个类型和成员都将在元数据中进行说明。当执行代码时,运行库将元数据加载到内存中,并引用它来发现有关代码的类、成员、继承等信息。

元数据以非特定语言的方式描述在代码中定义的每一类型和成员。元数据存储以下信息:

程序集的说明。
标识(名称、版本、区域性、公钥)。
导出的类型。
该程序集所依赖的其他程序集。
运行所需的安全权限。
类型的说明。
名称、可见性、基类和实现的接口。
成员(方法、字段、属性、事件、嵌套的类型)。
属性。
修饰类型和成员的其他说明性元素。

一、元数据的优点

对于一种更简单的编程模型来说,元数据是关键,该模型不再需要接口定义语言 (IDL) 文件、头文件或任何外部组件引用方法。元数据允许 .NET 语言自动以非特定语言的方式对其自身进行描述,而这是开发人员和用户都无法看见的。另外,通过使用属性,可以对元数据进行扩展。元数据具有以下主要优点:

自描述文件。
公共语言运行库模块和程序集是自描述的。模块的元数据包含与另一个模块进行交互所需的全部信息。元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向操作系统注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的可靠性。

语言互用性和更简单的基于组件的设计。
元数据提供所有必需的有关已编译代码的信息,以供您从用不同语言编写的 PE 文件中继承类。您可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。

二、属性。

.NET Framework 允许您在编译文件中声明特定种类的元数据(称为属性)。在整个 .NET Framework 中到处都可以发现属性的存在,属性用于更精确地控制运行时您的程序如何工作。另外,您可以通过用户定义的自定义属性向 .NET Framework 文件发出您自己的自定义元数据。有关更多信息,请参见利用属性扩展元数据。

三、元数据的意义

说到元数据的意义,可以从其应用目的来谈的。虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。

还是那客户关系系统来比喻,这个系统维护客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如指纹、犯罪史等,这些信息跟客户关系管理的目标关系不大。元数据也是如此,你可以将所以数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下"做法,必败无疑。

四、元数据列举

基于应用,可以将元数据分成以下的若干中。

数据结构:数据集的名称、关系、字段、约束等;
数据部署:数据集的物理位置;
数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;
质量度量:数据集上可以计算的度量;
度量逻辑关系:数据集度量之间的逻辑运算关系;
ETL过程:过程运行的顺序,并行、串行;
数据集快照:一个时间点上,数据在所有数据集上的分布情况;
星型模式元数据:事实表、维度、属性、层次等;
报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;
数据访问日志:哪些数据何时被何人访问;
质量稽核日志:何时、何度量被稽核,其结果;
数据装载日志:哪些数据何时被何人装载;

五、元数据开发应用的标准化框架

1、数字图书馆资源组织框架

2. 元数据开发应用框架

2.1 元数据的基本意义 Metadata(元数据)是“关于数据的数据”;

元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;

元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。

离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。

3. 元数据应用环境

3.1 Metadata的应用目的

(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。

(2)着录描述(Cataloging),用于对数据单元进行详细、全面的着录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。

(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的着录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。

(4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。

3.2 Metadata在不同领域的应用 根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现

例如:
网络资源:Dublin Core、IAFA Template、CDF、Web Collections
文献资料:MARC(with 856 Field),Dublic Core
人文科学:TEI Header
社会科学数据集:ICPSR SGML Codebook
博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
政府信息:GILS
地理空间信息:FGDC/CSDGM
数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
档案库与资源集合:EAD
技术报告:RFC 1807
连续图像:MPEG-7

3.3 Metadata格式的应用程度

不同领域的Metadata处于不同的标准化阶段:
在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;

在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;

但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图像的Metadata,现在提出的许多标准都处于实验和完善的阶段。
3.4 Metadata格式“标准化”程度问题

Metadata开发应用经验表明,很难有一个统一的Metadata格式来满足所有领域的数据描述需要;即使在同一个领域,也可能为了不同目的而需要不同的但可相互转换的Metadata格式。

同时,统一的集中计划式的Metadata格式标准也不适合Internet环境,不利于充分利用市场机制和各方面力量。

但在同一领域,应争取“标准化”,在不同领域,应妥善解决不同格式的互操作问题。

4. 元数据结构

4.1 总体结构定义方式 一个Metadata格式由多层次的结构予以定义:

(1)内容结构(Content Structure),对该Metadata的构成元素及其定义标准进行描述。

(2)句法结构(Syntax Structure),定义Metadata结构以及如何描述这种结构。

(3)语义结构(Semantic Structure),定义Metadata元素的具体描述方法。

4.2 内容结构

内容结构定义Metadata的构成元素,可包括: 描述性元素、技术性元素、管理性元素、结构性元素(例如与编码语言、Namespace、数据单元等的链接)。

这些数据元素很可能依据一定标准来选取,因此元数据内容结构中需要对此进行说明,例如MARC记录所依据的ISBD,EAD所参照的ISAD(G),ICPSR所依据的ICPSR Data Preparation Manual。

4.3 句法结构

句法结构定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法(例如Dublin Core采用ISO/IEC 11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、结构语句描述语言(例如EBNF Notation)等。

有时,句法结构需要指出元数据是否与所描述的数据对象捆绑在一起、或作为单独数据存在但以一定形式与数据对象链接,还可能描述与定义标准、DTD结构和Namespace等的链接方式。

4.4 语义结构 语义结构定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。

有些元数据格式本身定义了语义结构,而另外一些则由具体采用单位规定语义结构,例如Dublin Core建议日期元素采用ISO 8601、资源类型采用Dublin Core Types、数据格式可采用MIME、识别号采用URL或DOI或ISBN;
又如OhioLink在使用VRA Core时要求主题元素使用A&AT、TGM和TGN,人名元素用ULAN。

5. 元数据编码语言与制作方式

5.1 元数据编码语言

元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。

在元数据发展初期人们常使用自定义的记录语言(例如MARC)或数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。

5.2 元数据制作方式

(1)专门编制模块(例如对MARC、GILS、FGDC等)

(2)数据处理时自动编制(例如对Dublin Core等)

(3)数据物理处理时自动编制(例如数字图像扫描时的某些元数据参数)

(4)共享元数据(例如OCLC/CORC、IMESH

6. 元数据互操作性

6.1 元数据互操作性问题

由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability):
多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。

6.2 元数据格式映射

利用特定转换程序对不同元数据元格式进行转换,称为元数据映射(Metadata Mapping/Crosswalking)。

目前已有大量的转换程序存在,供若干流行元数据格式之间的转化,例如
Dublin Core与USMARC; Dublin Core与EAD
Dublin Core与GILS; GILS与MARC TEI
Header与MARC FGDC与MARC

也可利用一种中介格式对同一格式框架下的多种元数据格式进行转换,例如UNIverse项目利用GRS格式进行各种MARC格式和其它记录格式的转换。格式映射转换准确、转换效率较高。不过,这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到限制。

6.3 标准描述框架

解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式. 实际上,XML和RDF从不同角度起着类似的作用。

XML通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识用XML_DTD定义的Metadata格式,从而解决对不同格式的释读问题。

RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对该关系进行具体描述。

RDF通过这个抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。

进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。另外,RDF还规定了利用XML Namespace方法调用已有定义规范的机制,

6.4 数字对象方式

建立包含元数据及其转换机制的数字对象可能从另一个角度解决元数据互操作性问题。

Cornell/FEDORA项目提出由内核(Structural Kernel)和功能传播层(Disseminator Layer)组成的复合数字对象。

内核里,可以容纳以比特流形式存在的文献内容、描述该文献的元数据、以及对这个文献及元数据进行存取控制的有关数据。

功能传播层,主功能传播器(PrimitiveDisseminator)支持有关解构内核数据类型和对内核数据读取的服务功能,还可有内容类型传播器(Content-Type Disseminators),它们可内嵌元数据格式转换机制。

例如,在一个数字对象的内核中存有MARC格式的元数据,在功能传播层装载有请求Dublin Core格式及其转换服务的内容类型传播器。当数字对象使用者要求读取以Dublin Core表示的元数据时,相应的内容类型传播器将通过网络请求存储有Dublin Core及其转换服务程序的数字对象,然后将被请求数字对象中的MARC形式元数据转换为Dublin Core形式,在输出给用户。

7. 几点建议

跟踪元数据发展、积极参与制定元数据标准、加快元数据应用、注意国际接轨。
加快研究有效利用元数据进行检索(包括异构系统透明检索)、相关性学习、个性化处理等的机制。
加快研究元数据与数字对象和数字化资源体系有机整合的途径与方法。
推进研究利用元数据进行基于知识的数据组织和知识发现。

I. 语义网是什么有什么好处

文/thomas claburn

一些公司联手致力于语义网开发环境和数据库的研发。

有人把语义网(semantic web)称为web3.0,现在它就要粉墨登场了。编程工具开发商topquadrant公司和franz公司日前表示,他们将把前者的topbraid composer和franz的allegrograph 64位rdf存储数据库结合起来,形成一个语义网开发环境和数据库,提高计算机的“智力”。

语义技术可增强计算机对数据的理解,在整合大型数据集时用处特别显着。它对于搜索应用的用处也很大,因为语义技术让计算机推断出未有明确定义的数据元素之间的关系。一个关键词搜索通常仅仅返回包含查询关键字的文档,而语义搜索则能返回与搜索词汇的含义有关的结果(例如:tank一词,有坦克、水容器等两种含义,语义技术能予以辨别),或者是与搜索词汇的同义字有关的结果(例如:tank意为坦克时,同义字有armored vehicle,装甲车)。

目前,还没有出现真正意义上的语义网,这在很大程度上是因为现有工具还无法承担这样的任务。topquadrant的联合创始人和执行合伙人拉尔夫·霍奇森(ralph hodgson)说:“我们必须要创建出合适的工具,来支持语义网的实现。”他说,包括protege和swoop等在内的公共领域许可软件都还无法商用。

使用标准数据库和开发环境的语义程序似乎不能很好地拓展。“你可以用自己的方式进行编程,”霍奇森说,“就是费点劲。”

语义网有许多的标准、协议以及包括rdf、owl(web ontology language,web本体语言)、sparql等在内的多种语言,此外还有可让开发者在语义框架下组织数据的xml相关技术。上述两家公司的产品组合,提供了一个基于eclipse的图形开发环境和一个能与大量rdf数据同比扩大的数据库。

葛兰素史克公司(glaxosmithkline,下称gsk)正在对allegrograph进行测试,以提供一个更为灵活的it基础设施并通过自动化提高生产力。这家制药公司正在利用一个语义数据提取层进行试验。这项生物实验室工作有很多制药公司参与其中,因而产生了许多数据,gsk的一位主管罗宾·麦克伊泰(robin mcentire)说:“因此我们希望把它聚合起来,并在更高的一个层级上把它呈现出来,语义技术大有用处。”

该公司的目标是应用基于计算机的推理,从而对大量实验数据进行评估和过滤。“低层级的推理是很好的开端,我们的科学家从事的任务并非‘高科技’,但是特别耗时的任务就可以利用这项技术实现自动化。”麦克伊泰说。

伊士曼-柯达公司(eastman kodak,下称柯达)也在使用allegrograph软件,它从可视化数据中进行含义推断,从而来帮助客户更好地维护他们日渐庞大、难以管理的数字影像。

“语义理解技术将帮助消费者更好地管理自己的的图片,”柯达主席兼首席执行官(ceo)彭安东(antonio perez)去年在一场演讲中表示,“照片之间也能相互‘认识’了—不用人们指点,利用元数据(metadata),一张照片便可寻找到具有相关元数据的另一张照片,因此,所有的照片便能以新的类别进行重新组合,无非取决于它们之间不同的关联方式而已。”

J. 知识图谱是什么有哪些应用价值

知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?

目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语

1. 什么是知识图谱?

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识推理

推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。

在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

6. 结语

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

热点内容
pythonqt设计师 发布:2024-04-28 20:44:29 浏览:533
在线支付php 发布:2024-04-28 20:20:10 浏览:542
安卓车机开机动画一般什么格式 发布:2024-04-28 20:11:21 浏览:286
jnic调用java 发布:2024-04-28 20:09:24 浏览:279
mpc源码 发布:2024-04-28 20:08:27 浏览:427
windows7python 发布:2024-04-28 19:59:22 浏览:616
文件夹2寸 发布:2024-04-28 19:42:48 浏览:657
怎么用服务器的ip做内网穿透 发布:2024-04-28 19:28:52 浏览:926
常用的单向哈希算法有 发布:2024-04-28 19:16:04 浏览:117
牛贝微信淘客源码 发布:2024-04-28 19:09:16 浏览:34