智能计算CON 2.0等新兴技术为互联网加速

http://www.enet.com.cn 2007年04月13日10:15

  随着Web 2.0时代的到来,大量用户产生的内容(UGC)丰富了网站,但信息的爆炸也给互联网从业者带来挑战。与此同时,智能计算CON 2.0新型搜索引擎优化、标签等技术的出现和普及,也带来了便利。

  智能计算技术在互联网的应用

  当人们为“第四媒体”的革命性摇旗呐喊时, 信息激增带来的过剩与泛滥也让我们徘徊在信息焦虑和信息饥渴之间而心力交瘁,每天涌现的资讯、图片、讨论和电子邮件, 远远超出个人处理能力的极限, 面对如此浩瀚的“信息海洋”,知识在哪里?

  智能计算的出现带给人们新的希望, 智能计算是计算机利用存储与统计等特长模拟出人类智能效果的技术,它将原始无序的数据转化成容易理解、价值较高的信息,并将正确的信息在正确的时间以正确的方式分配给正确的人。智能计算代替人工方式,通过从非结构化数据到结构化数据以及从字符到语义,实现对信息的搜集、加工、管理和分析,帮助使用者获得知识或洞察力,促使他们更快地做出决策。运用语义分析、数据挖掘、模式识别等一系列技术,将过去的信息转变成今天的知识进而转变成明天的财富。本文将对当前互联网中正在兴起的诸多智能计算技术进行简要描述。

  页面分析

  互联网可以说是一个非常巨大的数字图书馆,搜索引擎是这个图书馆的索引工具,对于阅读者来说,他们可以通过搜索引擎或其他方式来找到这个图书馆里面的资料。这些资料都是以HTML形式表现出来的,HTML是面向浏览的文件格式,但其非结构化的特征阻碍了对信息的再利用。当阅读者需要这些资料的时候,简单地只能是Ctrl+C和Ctrl+V地逐条处理,效率非常低。再进一步可以是采用网络爬虫技术将需要的页面批量抓取下来。

  爬虫技术虽然解决了批量获取数据的问题,但抓取下来的文件仍然是HTML格式的,无法直接进行二次处理。那如何将互联网的数据转化为能够进行快速高效获取的信息呢?必须将其转化为结构化的XML格式数据,这其中不可缺少的一项技术就是页面分析技术。

  页面分析技术通过对HTML页面进行分析,将其中有价值的部分解析为结构化信息作为进一步处理的基础。如针对新闻页面分析,把页面中的标题、作者、发布时间、发布来源、正文内容等信息提取出来;针对商品页面分析,把商品名称、价格、厂商、品牌、型号、其他属性等信息提取出来。

  页面分析有两个主要的实现途径: 1.模版识别法; 2.自动分析法。

  模版识别法,也称正则匹配法。它是目前最常见的一种方法,它需要对网站发布页面进行分析,简单还原出网站的发布模版,然后手工配置相应的正则表达式,把需要的信息提取出来。使用这种方法有很多限制:首先,使用范围受限,必须指定网站,且网站必须由模版发布出来;第二,使用规模受限,因为需要人工配置,工作量大,对方网站改版就需要重新配置,后期维护很困难。这些局限决定了模版识别方式不可能对大规模互联网上的资源进行实施。

  因此,很多知名公司都在研究如何在没有人工参与的情况下,自动地对页面进行分析以获取需要的数据。当前比较成熟的算法为基于视觉的识别方法,其主要过程是根据页面结构模拟浏览器展现,然后根据人使用浏览器的习惯所设定的视觉焦点来从页面中分析出主要内容,再对其进行结构化的提取。我们目前的技术已经可以解析包含DIV、CSS、JS等复杂元素的页面结构。

  应用

  页面分析技术应用范围非常广泛,大到各搜索引擎、垂直引擎,小到某一个新闻编辑甚至是每一位网民,都可以使用这项技术。它跟搜索引擎的爬虫相结合,可以快速地收集各类资源,并转化成XML数据,从而迅速实现各类垂直引擎。它跟网站的发布系统相结合,可以使编辑人员在转载新闻时,从烦琐的复制粘贴中解放出来,以便有更多的时间来组织内容;通过与论坛、Blog系统实现对接,网民可以方便地上传内容。

  以现在互联网的组织形式,并不利于数据的重复使用,而页面分析技术将像一把巨大的梳子,它对互联网进行反复的梳理,把非结构化的HTML数据整理成结构化的XML信息。

站内
E型
相关热词搜索
我感兴趣  电话:010-65245588
  • 文章排行
  • 周排行
  • 月排行
  • 年排行
网站合作、内容监督、商务咨询、投诉建议:010-65245588
合作建议:
Copyright©2000-硅谷动力版权所有 京ICP证000088号
京ICP证000088号