云计算助推知识产权信息化服务水平
DOIT云计算 12年07月31日 11:41 【转载】 作者:机房360 责任编辑:张文希
导读:汤森路透德温特世界专利索引(Derwent World Patents Index)的报告称,到2015年,来自中国的专利申请数量预计将达到近50万件,紧随其后的是美国和日本,分别将达到40万件和大约30万件。
关键词: 云计算
汤森路透的数据显示,2006年至2010年,来自中国专利办公室的申请数量从17.1万件增至近31.4万件,平均每年增长16.7%。
在此期间,日本的国际专利申请量居世界第一,之后依次为美国、中国、韩国和欧洲。
在中国提交所有的专利申请中,国内申请所占比例从2006年的不到52%升至2010年的近73%,说明中国企业在专利高潮中已超过了外国企业。
根据世界知识产权办公室(WIPO)的数据,中国企业提交的海外专利申请数量也在不断增加。
2010年,中国第二大电信设备制造商中兴通讯(ZTE)的国际专利申请量居世界第二,仅次于日本的松下公司。
美国芯片制造商高通公司(QCOM)排名第三,中国华为技术有限公司排名第四。
由此可见,专利信息数据量与日俱增,从几千万到几个亿,其中中文专利就有300多万件,数据空间容量几百GB;系统对检索性能要求高,在数百并发请求的压力下要求95%的检索在1秒内完成,98%的检索请求在3秒内完成响应;数据结构复杂,包含著录项、代码化全文数据XML等,同时有些专利还附有图形说明书,包括TIFF图、PDF文件,物化视图和虚拟库势力,包括和虚拟库实例;排序结果智能处理要求高,要求查准和接近100%查全、丰富的概览和详览展示、检索结果分类统计等。
长期以来,对于海量专利数据的处理一直为国外企业所垄断,如美国汤姆森科技,韩国WIPS等跨国集团。为了贯彻我国知识产权战略,摆脱长期依赖国外专利技术系统的局面,实现专利检索和分析系统的自主建设和自主发展,我国在知识产权保护和管理方面正在积极发展与探索着,但同时也面临着十分严峻的挑战。
我国在知识产权信息化服务中,对于专利数据的挖掘分析涉及到海量文本挖掘、信息检索、信息可视化等技术的通常做法是:采用文本挖掘对海量专利文本进行信息的抽取;采用语义检索筛选专利;采用信息可视化技术对分析结果进行输出。这些环节需要大量的数学运算,属于典型的计算密集型业务,只有通过高性能计算集群才能保证任务的完成周期。关键问题包括:如何利用现有的先进技术,组织和管理中国专利文献,如何为专利审查员和专利申请人提供高效、快捷的专利文献全文检索和分析机制。
专利信息量的迅速增长以及查询的复杂化,使传统的分析检索系统已不能满足对数据进行深层次多维度分析的要求,因此需要建设能够处理海量非结构化信息的、高度智能化的专利分析解决方案,通过对专利信息进行多维分析处理,从而将分析结果以多维视图的方式展现给决策者。
云计算高速并行的计算能力为我国知识产权信息化服务机构提供了新的契机。它将帮助这些服务机构建立基于多种索引模式和知识词典的全文检索、提供自然语言检索和相似性检索、专利群族等全方位智能检索,甚至可以提供更多更精确的分类检索、表格检索、表达式检索、英文词根检索、跨语言的专利查询、专利文献的复杂单元(化学表达式和数学表达式)检索,各项检索都支持二次检索、同义词检索等,并可以将检索结果作为检索历史保留,等等。
云计算的第一要素是信息。信息技术的发展,是一个从信息匾乏到信息无处不在的过程,我们经历了以系统为中心的集中处理阶段,以PC为中心的分布处理阶段,以网络为中心的信息分享阶段,到现在能随时随地存取的云计算阶段。面对云计算对信息收集、处理产生的巨大影响,知识产权信息服务机构需要对云计算创新服务模式进行尝试,直到完全适应,并发挥更大效能。
1、基于云计算的数据组织、管理方式。
不断增长的海量数据,只有被充分组织、管理和利用才能发挥其真正的价值。在传统的网络环境下,信息资源的组织方式一般分为四种方式:即文件方式、数据库方式、主题树方式、超媒体方式。而文件方式本身可看作信息单元,需要作为对象来管理,所以很难在网络信息载体中广泛被使用,但运用云计算,用户数据都存储于服务器中,软硬件服务也都由云提供,这样对于存储于网络中的用户个人数据,或部分用户数据,使用这种简单方便的存储非结构化信息的天然单位的文件方式存储数据,是最优的解决方案。这也会带动目前普遍的数据库方式改革以克服其不能提供数据信息之间的知识关联和对用户和数据库服务端要求较高的缺点。
2、实现基于云计算的知识产权检索、分析的系统布署。
由于用户的信息需求千差万别,并且随时间的变化而动态变化,向用户提供满意的知识产权信息服务是很不容易的。为此,在信息服务活动中需要遵循针对性原则、及时性原则、易用性原则一、成本效益原则。对于云计算来说,深层次信息服务也是其最终目的。在云环境下,需要基于工程文献基础数据,综合云的特征,高效开展集成检索、定题服务、情报分析、决策参考等深度服务。
著名的穆尔斯(Mooers)定律:一个情报检索系统如果对用户来说,取得情报比不取得情报更伤脑筋和麻烦的话,用户就会倾向于不使用该系统。Dialog信息检索服务的名誉主席RogerK.Summit则以另一种方式对此进行了表述:“穆尔斯定律告诉我们信息的使用与获得信息的容易程度成正比。”信息用户总是希望信息系统越便于使用越好,越是简便易用的信息系统,用户使用的频率也越高。反之,则很少有用户去使用。云服务由于整合了大量的一手的用户的数据和信息,使得用户通过非正规渠道查找所需要的信息比以往更加便利。
检索系统的好坏、使用是否方便,不仅要看系统本身能否实现用户的预期目的,另一个关键在于系统的硬件部署是否可以满足大数据量访问的要求。