数据挖掘的功能

2009-05-20 / 数据分析, 数据报告 / 0 Comments

  数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

  1、自动预测趋势和行为

  数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

  2、关联分析

  数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

  3、聚类

  数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

  4、概念描述

  概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

  5、偏差检测

  数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

Read More

BLOG(博客)系统的功能说明

2009-05-18 / 网站开发 / 0 Comments

打造心中最完美理想的BLOG系统,特列举以下特征和功能,希望给所有BLOG程序编制者参考。如果有根据以下项目编制成功BLOG PROGRAM,别忘了通知我哦。如果还有需要补充的请多指教。

BLOG的基本特征和功能要素:

1、RSS-简称“聚合”

RSS 是一种技术规范的简称,不同的技术团体将其分别描述为:“Rich Site Summary”(丰富站点摘要)、“RDF Site Summary”(RDF站点摘要)或“Really Simple Syndication”(真正简易聚合)。在形式上,也分别有RSS技术的主导者、哈佛大学研究员Dave Winer的RSS 0.93、RSS2.0(Apple、News.com的出版商CNET Networks等支持),IBM软件工程师SamRuby 2003年发起的Atom(Google和Six Apart――Movable Type的拥有着支持)。不过本质上它们都是一种遵循W3C RDF规范的XML格式,是一种多用途、可扩展的元数据描述及联合推广格式。它允许互联网站点制作人员,为内容整合客户端提供选择性的、汇总过的Web内容。

RSS2.0规范原文

2、Trackback-引用通告

TrackBack最早是Movable上的功能,后来成为BLOG的标准配置,它是一种将全世界无数个Blog连接起来的功能。通过TrackBack,你可以在自己的Blog上就别人发表的某篇文章做评论和延伸,并通知对方你引用了它文章中的内容。只要对方的Blog也支持TrackBack,你在发布自己的文章时,将同时向对方Blog发出一个TrackBack Ping,向刊载被评论文章的服务器发送你写的Blog的地址、标题和部分征文。这样当其他人浏览那篇文章时,就能够看到你的部分评论和正文,感兴趣的话他们还可以通过链接阅读你评论的详细内容。同样,别人也可以使用TrackBack功能对你Blog中的某篇文章加以评论,在你的文章中留下相应的引申链接

3、Permailink-永久链接

给BLOG上每篇BLOG文章一个永久链接,这样便于他人长期引用,这样不管你的后台是动态程序,首页如何改变,但每篇BLOG的链接都是永久固定的,而且最好是htm等静态链接,这样还有利于搜索引擎的搜录。如果你实在做不到htm 静态链接,可以考虑采取URL REWRITING、PATH_INFO、服务器设置等方式将动态链接变为静态链接,将前台链接表现形式和后台程序分离开来,以后即使更换后台程序也不用担心了。

4、Comments-评论

也称作回复功能,用户可以借此对此BLOG进行评论,这是读者同BLOGGER相互交流的最直接渠道。

5、Archive-归档

也称作索引功能,通常都是按月份进行BLOG文件的归档(也有按分类归档的),便于大家在一个页面就查找到归档日期内的所有BLOG文章,通常都生成静态页面,这也是利于搜索引擎搜录的一个重要手段。

6、Calendar-日历

每个BLOG都可以看到的最基本的元素,这也是BLOG最基本的特征,根据日期可以检索到当日发表的BLOG。

以上是BLOG最基本的功能要素,如果以上6点都达不到,称为BLOG就有些牵强了。话虽如此,目前大部分都只支持了其中四、五项,这是BLOG程序设计者需要学习和改进的。

7、Style-个人定制风格

虽然BLOG最大程度的减少了发布者对于网页技术的需求门槛,但是BLOG鲜明的个人化特征要求发布者可以自定义自己的BLOG风格,因此BLOG具有自定义CSS或者SKIN的功能也是必不可少的。

8、CC-创作共用约定

创作共用约定是BLOG发布者尊重原创者所默认遵从的规则。当然这个并非必须,现在许多新兴的BLOGGER已经忘记或不知道这个约定。

创作共用(Creative Commons)允许拷贝、分发、呈现和表演当前作品,制作派生作品。但是必须遵守一下规则:署名。你必须明确标明作者的名字。非商业用途:你不可将当前作品用于商业目的。保持一致:如果你基于当前作品更改、变换或构造新作品,你应当按照与当前协议完全相同的协议分发最终作品。

对于任何二次使用或分发,你必须让其他人明确当前作品的授权条款,在得到作者的明确允许下,这里的某些条款可以放弃。

9、Catalog-分类

这个并非必须,但基本上BLOGGER都设置有不同的分类,用于区分自己BLOG文章的类别。

10、Search-搜索

基本功能,通常提供的都是简单模糊搜索,基本上已经够用了,所以这项功能也一直没有进行过特别的加强。

11、Statistic-统计

BLOG的基本统计数据,例如访问次数,在线人数,BLOG发表篇数,引用篇数,评论篇数,注册用户数。

12、Links-链接

放置一些友情链接。

13、Favorite-收藏

收藏一些有用的文章或链接。

14、Roll-交换链接

用于显示其他博客的链接,自己的博客也会同时显示在其他blog roll列表里,动态循环显示,有点象国内的文本链广告交换,国外的例子可以参看这里Blogrolling.com。

15、Visual Editor-可视化编辑器

早期都是使用文本,对于HTML标签制作起来就比较麻烦,最近BLOG程序已经普遍采用可视化的文章编辑器,方便BLOGGER更加有效的组织文章结构和显示效果。

16、Tag-标签

通常BLOG文章的分类只有一层,很少有多级分类,有时这也是许多信息量大的用户比较头疼的地方,实现多级分类功能还不如使用Tag功能,方便实用,也比较社会化。

17、AutoLink-自动链接

大家可以看到许多BLOG中许多网站、人名、名词、事件通常都加有超链接,也许很多人就奇怪,作者怎么又这么多精力呢,实际上是关键字自动转换超链接功能在起作用。作者在后台可以设置关键字及其指向的链接,添加文章时就会自动将普通文本关键字变为带超链接的显示方式,有的还可以将关键字进行指定字符转换。这其实也是BLOG一项重要的功能,可惜国内很多BLOG程序很少实现这一点。

18、Album-相册

用于分类上传各类图片,是BLOG的附属功能。

19、Antispam-反垃圾信息

目前的评论系统,容易产生垃圾广告和垃圾信息,需要在系统上对垃圾信息的发布进行限制,例如加入验证码等。

20、Keywords-关键字

通常用于新闻系统的相关文章,但是博客基本上都没有这项功能,对于分类过大,没有TAG功能的博客来讲,利用关键字自动获取相关文章还是很有必要的,实现起来也不难。

21、SN-社会化网络

目前除了rss的应用突飞猛进外,BLOG自身的发展似乎停滞不前了,而增强BLOG的SN功能,是BLOG功能拓展的重要途径。例如“团体博客”,BLOG浏览同好等,具体就不多说了,网上SN服务一大把,参考一下就知道哪些SN功能可以结合进来了。

22、Export-导出

用户数据的导出,例如文章、评论、引用等。

23、Management-管理

管理功能,设置BLOG的基本参数,设置和管理以上所有要素,数据库管理,后台各项内容的导出等。

Read More