1、 假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。在较高概念层,avg_grade存放给定组合的平均成绩。
a)为数据仓库画出雪花模式图
b)由基本立方体{学生、课程、学期、教师}开始,列出大学每个学生的“计算机导论”课程的平均成绩,应当使用哪些OLAP操作(如由学期上卷到年)?
2、 假定数据仓库包含4个维date,spectator,location和game,2个度量count和charge。其中,change是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。
a)画出该数据仓库的星形模式图
b)由基本立方体[date,spectator,location,game]开始,为列出2000年观众在GM-Place的总付费,应当执行哪些OLAP操作?
3、 假定下面的表从面向属性的归纳导出。
类 出生地 人数 数据挖掘实验室
程序员 江苏 180
其它 120
销售员 江苏 20
其它 80
a)将该表转换成显示相关t-权和d-权的交叉表
b)将类“程序员”转换成(双向的)量化描述规则。例如
4、数据库有4个 事物。设min_sup=60%,min_conf=80%
TID 日期 购买的物品 数据挖掘研究院
T100 99/10/15 {K,A,D,B}
T200 99/10/15 {D,A,C,E,B}
T300 99/10/19 {C,A,B,E}
T400 99/10/22 {B,A,D}
a)使用Apriori算法找出频繁项集
b)列出所有强关联规则(带支持度s和置信度c),它们与下面的元规则匹配,其中,X是代表顾客的变量,item是表示项的变量(例如,”A”,”B”等)
c)画出FP-树
5、 下表给出某门课程若干学生期中和期末考试成绩
期中 72 50 81 74 94 86 59 83 65 33 88 81
期末 84 63 77 78 90 75 49 79 77 52 74 90
a) 绘数据图。X和Y看上去具有线性联系吗?
b) 使用最先二乘法,求由学生的期中成绩预测学生的期末成绩的方程式 数据挖掘研究院
c) 预测期中成绩为86的学生的期末成绩。
6、 假设数据集D含有9个数据对象(用2维空间的点表示):
A1(3,2), A2(3,9), A3(8,6), B1(9,5), B2(2,4), B3(3,10), C1(2,6), C2(9,6), C3(2,2)
采用k-均值方法进行聚类,距离函数采用欧几里德距离,取k=3,假设初始的三个簇质心为A1,B1,和C1,求:
(1) 第一次循环结束时的三个簇的质心。
(2) 最后求得的三个簇。
(3) 如果采用曼哈坦距离或q=3时的闵可夫斯基距离情况如何?
7、(30分)阐述一种课程以外的数据挖掘方法。(要求给出方法、例子、分析(从优缺点,适用场合等方面))
有点麻烦复制了一份,有时间再做.
求助数据挖掘题目答案
来源:
作者:
时间:2008-03-11
点击:
最新评论共有 0 位网友发表了评论
查看所有评论
发表评论
热点关注

