导航链接的分类与
导航链接从内容方面可以分为:信息导航、目录导航、功能导航。
信息导航主要是标题列表、信息摘要等。
导航链接从表现方面可以分为:文字导航、图片导航、多媒体导航。
导航链接从使用方面可以分为:全局导航、局部导航、辅助导航、友好导航、内链导航、地图导航。
导航链接从内容方面可以分为:信息导航、目录导航、功能导航。
信息导航主要是标题列表、信息摘要等。
导航链接从表现方面可以分为:文字导航、图片导航、多媒体导航。
导航链接从使用方面可以分为:全局导航、局部导航、辅助导航、友好导航、内链导航、地图导航。
我们大致将使用搜索引擎的用户分为三类:
1、导航型搜索者 要寻找特定的网站(可能因为他们不知道确切的网址),使用的搜索请求如“新浪”或者“网易”。
2、信息性搜索者 需要信息来回答他们的问题或者要了解新的主题,使用的搜索请求如“什么是SEO”或者“网站优化”。
3、交易型搜索者 想要做些事情(买东西、注册、参加竞赛等),他们使用的搜索请求如“悉尼天气”或者“NOKIA5200如何解锁”
用户的搜索意图的分析的方法相对不固定,比较成功的有中心词分析、历史搜索关键词、语义分析、语境分析、点击统计分析等手段。那么互联网上的用户在搜索引擎上到底的意图是干什么呢?下面给出一个详细的分析结果,供相参考:
32% 直接搜索网站
31% 资源和下载型
16% 信息型
4% 财经股票类
4% 商业相关(B2C,C2C,以及有可能产生消费的流量)
13% 色情类
最大的两类是直接搜索网站的! 然而这个一点也不意外,能记住超过10个以上域名的网民的数量还属于少数,而且以后也会是少数,在这样的情况下,搜索引擎的第一大的作用就是“搜索导航”。
搜索者的意图是信息型还是交易型?
在互联网鼎盛时期,一个居于领先地位的艺术和印刷品网站花费了上百万美元在艺术相关搜索请求的付费放置上面。营销经理知道“莫奈”是他们流量最大的搜索请求,但是近来通过雅虎来的关于莫奈的访问量显著下降。是什么发生了变化呢?
检查雅虎上对“莫奈”的搜索结果,发现在自然搜索结果里有个新的网站,提供了关于莫奈全部的历史信息。显然很多寻找莫奈信息的搜索者很可能会去访问那个新站点,而不是艺术和印刷品的网站。
为了应对这样的变化,营销经理在他的网站上放置了更多的关于莫奈的信息,并很快发现他的莫奈网页在雅虎的自然搜索排名提高了。正如预期的那样,他开始看到通过雅虎自然搜索到这个新的莫奈网页的流量显著增加。令人不解的是付费的搜索点击-它们下降的更多。更糟糕的是,当同时增加了付费和自然搜索的推荐以后,虽然流量增加了一倍,却没有更多的人购买莫奈的印刷品。
为什么会这样?营销经理决定进行一个试验。他在新的莫奈网页上增加了一个调查,并向任何愿意提供其访问此网站意图的人赠送一幅印刷的画。在参与调查的人当中,95%的人说他们是学生,只是在寻找莫奈的生平和有关他的绘画信息。这些是信息型的搜索者,没有任何购买莫奈印刷品的愿望。
有了这些信息,这个营销经理将他的付费放置购买从信息型的请求转到了交易型的搜索请求(莫奈绘画作品的名字,例如“睡莲”water lili)。这个策略不仅增加了流量,而且也增加了销售。因为这样就抓住了那些没有输入“莫奈”作为搜索请求,但真正准备了购买具体印刷品的人们。
正如你可以看到的那样,认真研究搜索者的意图,回报是能够吸引更多的专注于你网站目标的搜索者。避免错误的流量与获得正确的流量是一样重要的。因为艺术和印刷品网站为每个艺术类学生点击付费放置页面而付出的每次点击费用,完全是一种浪费。通过专注于真正的购买者使用的搜索请求,这个艺术和印刷品网站减少了艺术类学生的访问,同时吸引了更多的艺术品购买者,从而增加了销售,也减少了付费放置的费用。
能够了解和逐步掌握搜索者的意图,才可以有针对性的实施搜索引擎营销,而事实上SEO网站优化只是SEM的一部分或者说是一种手段,我们做好了搜索引擎优化的最终目的还是为网络营销服务。
根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
3.1、Web内容挖掘:
指从Web内容/数据/文档中发现有用信息,Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。Web内容挖掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。
Web内容挖掘一般从两个不同的观点来进行研究。从资源查找(IR)的观点来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。
3.1.1从资源查找(Information Retrival)的观点挖掘非结构化文档:
非结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如:“informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少属性集合的规模。
其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。
用资源查找(Information Retrival)的观点挖掘半结构化文档:
与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
3.1.2从数据库(Database)的观点挖掘非结构化文档:
数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。
从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。
数据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、html等,也可以是一个复合类型,以对象引用集合的形式表示。由于Web数据量非常庞大,从应用的角度考虑,很多研究只处理办结构化数据的一个常用自集。一些有意义的应用是建立多层数据库(MLDB),每一层是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。
由于在数据库观点下数据的表示方法比较特殊,其中包含了关系层次和图形化的数据,所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用,目前已经有人针对多层数据库挖掘算法进行研究。
3.2、Web结构挖掘:
Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现他们之间连接情况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。
Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间的关系分为incoming连接和outgoing连接,运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。他们的共同点是使用一定方法计算Web页面之间超连接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。
此外,Web结构挖掘另一个尝试是在Web数据仓库环境下的挖掘,包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超连接的层次属性去探索信息流动如何影响Web站点的设计。
3.3、Web用法挖掘(Web usage Mining):
即Web使用记录挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web 用法挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web 使用记录的数据直接预处理再进行挖掘。Web 用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到Web 用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。
在[4]中,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web 用法挖掘分为五类:
●个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。
●系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web 用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
●站点修改:站点的结构和内容是吸引用户的关键。Web 用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依,比如页面连接情况应如何组织、那些页面应能够直接访问等。
●智能商务:用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。
●Web特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各个用户在页面上的交互情况,对用户访问情况进行特征描述。