5结束语
5.1总结
现在Web挖掘己逐步成为网络研究、数据挖掘、知识发现、软件代理等领域的热点问题。研究日志挖掘,对于优化web站点、电子商务、远程教育、信息检索等领域,都有着十分重要的意义。然而,如何将这些技术深入、完善,并尽快运用到Intemet各种应用中,是摆在我们面前的新课题。本论文重点研究了以下几个方面的内容:
①Web挖掘的各个环节文章研究了数据挖掘及其分支一Web挖掘的知识,详细阐述了其相关的各个环节。
②Web日志挖掘预处理相关技术研究论文重点讨论了web日志挖掘预处理中的几个步骤:数据采集、数据清洗、用户与会话识别、路径补充等,并给出了每个步骤的算法实现。
③web日志挖掘相关算法研究针对自适应站点的构造特点,论文对预处理后的日志文件重点采取的是聚类挖掘和关联规则挖掘,并提出基于URL-UserlD关联矩阵的用户聚类、页面聚类及频繁访问路径发现算法,并从理论上对上述算法进行了相应的分析。
④自适应网站系统构建中的相关知识作为wcb挖掘的应用之一的自适应网站系统,本文较为周详的讨论了自适应网站构建的相关知识内容。
5.2进一步的工作
尽管本论文对w曲挖掘进行了较为仔细的研究,但是仍有许多工作需要深入和加强,主要表现在:
①对可扩展标记语言)洲UeXtensible Markup Language)的进一步研究。以XML为基础的新一代WWW环境是直接面对w曲数据的,大量的Web页面用XML书写,web页面会蕴含更多的结构化和语义信息,可以更好地实现www分布计算环境下的信息共享与交换。XML以简单、开放和扩展的方式描述结构化的数据,这些数据允许指定不同的显示方式,使本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。XML数据作为一种自描述的半结构化数据为Web数据管理提供了新的数据模型,可以通过一定的转换、处理为关系数据库所支持,实施精确地查询与模型抽取。②日志文件的准确获取。
为了节省口地址资源,现在很多m地址是动态分配的,这给用户身份识别造成了一定的难度。另外,一些网络攻击者用修改Web日志来掩盖自己的访问路径,因此wcb挖掘不能光靠服务器记录下来的日志去解决实际的挖掘问题,否则会影响挖掘的效果。因此,应结合实际从多角度、多渠道的研究w曲日志,追踪分离出各个用户,为用户提供个性化和共性化的服务。
③自适应网站系统通用开发平台的实现。本论文仅仅是理论上实现了自适应网站系统的模型和功能,需要进一步从实践上对系统进行实施和完善。此外,由于大多使用web日志挖掘来建立用户模式,如果考虑采用web使用挖掘和web内容挖掘相结合的方法来实现网站建设的自适应性,会更好地构建用户模式,更好地实现站点的自适应性。
w曲挖掘是一项综合技术,涉及Web、数据挖掘、计算语言学、信息学等多个领域。随着对它的进一步深入研究,Web挖掘必将会越来越为人们所关注,也许它最终会象SQL语言一样走向形式化和标准化,人们只需几条简单的命令就可以实现复杂的挖掘。