英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
利用数据挖掘预测
中学生成绩:
保罗·科尔特斯和爱丽丝 · 席尔瓦
Dep.信息系统/Algoritmi 研发中心
米尼奥大学
4800-058 Guimartilde;aes,葡萄牙
电子邮件:Pcortez@dsi.uminho.pt,Alicegsilva@gmail.com
关键词
教育商务智能分类回归决策树随机森林
摘要
虽然葡萄牙流行教育的教育水平在过去的几十年里有所提高,但由于葡萄牙的高失效率,统计数字使葡萄牙处于欧洲的尾端。尤其是,在数学核心课程和葡萄牙局域网中缺乏成功是极其严重的。另一方面,商业智能 (BI)/数据挖掘 (DM) 领域,旨在从原始数据中提取高级知识, 有趣的自动化工具,可以帮助教育领域。本工作旨在通过 BI/DM 技术提高中等教育学生成绩。最近的真实世界数据 (例如学生成绩、人口、社会和学校相关特征) 是通过使用学校报告和系统收集的。这两个核心课程 (即数学和葡萄牙语) 是在二进制/五级 clas-sification 和回归任务。此外,四 DM mod-els (即。决策树,随机森林,神经网络和支持向量机) 和三个输入选择 (e。 g. 有和没有以前的成绩) 进行了测试。结果表明,只要有第一和/或第二学年的成绩,可以取得良好的预测精度。虽然学生成绩受到过去评价的高度影响,但解释性分析表明,也有其他相关特征 (e。 g. 缺勤人数,父母的工作和教育,饮酒)。作为本研究的直接成果,可以开发更多的有效的学生预测工具,提高教育质量,加强学校资源管理。
18 至 24 岁,而欧洲联盟的平均值仅为 15% (欧统局 2007)。尤其是,数学和葡萄牙语 (母语) 的核心课程的失败非常严重,因为它们为其余学校科目的成功提供了基本知识 (e。 g. 物理或历史)。
另一方面,由于信息技术的进步,人们对商业智能 (BI)/数据挖掘 (DM) (Turban et al.2007) 产生了兴趣, 导致业务和组织数据库的指数增长。所有这些数据包含有价值的信息,如趋势和模式,可用于改进决策和优化成功。然而,胡曼专家是有限的,可能忽略了重要的细节。因此,另一种方法是使用自动化工具来分析原始数据,并为决策者提取有趣的高级信息。
教育领域为 BI 应用提供了肥沃的基础,因为有多种数据源 (e。 g. 传统的数据库,在线网页) 和不同的内部组 (e。 g. 学生、教师、管理员或校友) (Ma et al.2000)。例如,对于这个领域有一些简单有趣的问题,可以使用 BI/DM 技术来回答 (Luan 2002,Minaei-bigoli et al.2003): 谁是学生最多的学分?谁可能会返回更多的课程?什么样的课程可以吸引更多的学生?学生转学的主要原因是什么?是否有可能预测学生的成绩?影响学生成绩的因素有哪些?本文将重点放在最后两个问题上。学生成绩建模是教育工作者和学生的重要工具,因为它可以帮助更好地理解这一现象,并最终改善它。例如,学校专业人员可以对弱势学生执行纠正措施 (例如补习班)。
介绍
教育是实现长期经济进步的关键因素。在过去几十年里,葡萄牙的教育水平有所提高。然而,由于葡萄牙的高学生成绩和辍学率,这一统计数字使其处于欧洲的尾声。例如,2006年葡萄牙的早期学校离校率为 40%。
在这方面,一些研究已经讨论了类似的主题。Ma 等人 (2000) 采用了一种基于社会交往规则的 DM 方法,以便选择新加坡的弱势高等学校学生参加补习班。输入变量包括人口统计学属性 (如性别,再 gion) 和过去几年的学校表现和拟议的解决方案优于传统的 al-location 程序。在 2003 (Minaei-bigoli et al.2003),
来自密歇根州立大学的在线学生成绩采用三种分类方法 (i。 e. 二进制: 通过/失败; 3 级: 低,中,高; 和 9 级: 从 1-最低级到 9-最高分)。该数据库包括 227 个具有在线功能的样本 (e。 g. 校正答案或尝试作业的数量) 和最好的结果是通过分类器集成 (例如。决策树和神经网络) 具有 94% (二进制),72% (3 类) 和 62% (9 类) 的准确率。Kotsiantis 等人 (2004) 应用了几种 DM 算法,从大学远程学习程序预测计算机科学学生的性能。对于每个学生,几个人口 (e。 g. 性别、年龄、婚姻状况和表现属性 (e. g. 标记在给定的分配) 被用作二进制传递/失败 cl 的输入助理。用朴素贝叶斯方法得到了最佳解,精度为 74%。此外,还发现,过去的学校成绩比人口统计变量有更高的影响。最近,Par-dos 等人 (2006) 从在线辅导系统收集了关于美国 8 年级数学考试的数据。研究人员采用了回归方法,其目的是根据个人技能预测数学考试成绩。作者使用贝叶斯网络,最好的结果是 15% 的预测误差。
在这项工作中,我们将分析两个葡萄牙中学最近的真实世界数据。使用了两个不同的来源: mark 报告和问卷调查。因为前者包含稀少的信息 (i。 e. 只有成绩和缺勤人数可用),它与后者补充,这允许收集几个人口、社会和学校重新设置的属性 (e。 g. 学生的年龄,饮酒,母亲的教育)。目的是预测学生的成绩,如果可能的话,确定影响教育成功/失败的关键变量。这两个核心课程 (即数学和葡萄牙语) 将在三个 DM 目标下进行建模:
- 二进制分类 (通过/失败);
- 分类有五个级别 (从我非常好或
优秀的 V-insusucient); 和
- 回归,一个数字输出,范围为 0 (0%) 和 20 (100%) 之间。
对于每种方法,将测试三个输入设置 (例如,有和没有学校期间等级) 和四个 DM 算法 (例如决策树,随机森林)。此外,将在最佳模型上进行解释性分析,以确定最相关的特征。
材料和方法
学生数据
在葡萄牙,中等教育包括 3 年的教育,前 9 年的基础教育和
其次是高等教育。大多数学生加入了公共和免费教育系统。有几个课程 (如科学和技术,视觉艺术),共享核心学科,如葡萄牙局域网和数学。像其他几个国家 (例如法国或委内瑞拉) 一样,使用 20 点分级量表,其中 0 是最低等级,20 是完美的分数。在校期间,学生在三个阶段进行评估,最后一次评估 (表 1 的 G3) 对应于最终成绩。
这项研究将考虑在 2005-2006 学年期间从葡萄牙的 Alen-tejo 地区的两所公立学校收集的数据。虽然政府对信息技术的投资有增加的趋势,但葡萄牙公立学校的信息系统大多很差, 主要依靠纸张 (这是目前的情况)。因此,数据库是从两个来源建立的: 学校报告,基于图纸,包括少量的支流 (i。 e. 三个时期的成绩和缺课次数); 和问卷调查,用来梳理以前的资料。我们设计了后者与封闭的问题 (i。 e. 与预定义的选项) 重新分配到几个人口 (e。 g. 母亲的教育,家庭收入),社会/情感 (e。 g. 酒精消耗 (Pritchard 和 W)Ilson 2003) 和学校相关的 (例如过去的班级失败的数量) 变量,预计会影响学生的表现。该问题是由学校专业人士审查,并测试了一小套 15 名学生,以获得反馈。最终版本包含 37 个问题在一个 A4 表,它是由 788 名学生在课堂上回答。后者,由于缺乏识别细节 (与学校报告合并所需),111 个答案被丢弃。最后,数据被集成到两个数据集重新设置为数学 (395 个例子) 和 Por-tuguese 语言 (649 个记录) 类。
在预处理阶段,由于缺乏判别值,导致了一些特征的分解。在立场上,很少有受访者回答他们的家庭收入 (可能是由于隐私问题),而几乎 100% 的学生与他们的父母住在一起,在家里有一台个人电脑。其余属性显示在表 1 中,其中最后四行表示从学校报告中获取的变量。
数据挖掘模型
分类和回归是 DM 的两个重要目标。两者都需要有监督的学习,其中模型被调整到由 k {1,hellip;N} 前安培,每个映射一个输入向量 (x1k,...,xIk) 到给定目标 yk。主要区别是在输出表示,设置 (即离散分类和连续回归)。在分类中,模型通常使用的百分比来评估,而在回归中
|
表 1: 预处理学生相关变量 |
属性 |
描述 (域) |
性 |
学生的性别 (二进制: 女性或男性) |
年龄 |
学生的年龄 (数字: 从 15 到 22) |
学校 |
学生的学校 (二进制:加布里埃尔佩雷拉或穆尼尼奥西尔维拉) |
地址 |
学生的家庭地址类型 (二进制: 城市或农村) |
Pstatus |
父母的同居状态 (二进制: 生活在一起或分开) |
Medu |
母亲的教育 (数字: 从 0 到 4A) |
Mjob |
母亲的工作 (名义B) |
Fedu |
父亲的教育 (数字: 从 0 到 4A) |
Fjob |
父亲的工作 (名义B) |
监护人 |
学生监护人 (名义上: 母亲、父亲或其他) |
Famsize |
族大小 (二进制:le;3 还是?gt;3) |
法雷尔 |
家庭关系的质量 (数字: 从 1-非常糟糕到 5-优秀) |
原因 |
选择此学校的原因 (名义上: 离家近,学校声誉,课程偏好或其他) |
旅行时间 |
回家上学旅行时间 (数字: 1-lt;15 分钟,2-15 到 30 分钟,3-30 分钟。 |
或 4-gt;1 小时)。 |
|
学习时间 |
每周学习时间 (数字: 1-lt;2 小时,2-2 至 5 小时,3-5 至 10 小时或 4-gt;10 小时) |
失败 |
过去类失败的数量 (数字:和如果 1le;和 lt;3,别的 4) |
学校 |
额外的教育学校支持 (二进制: 是或否) |
Famsup |
家庭教育支持 (二进制: 是或否) |
活动 |
课外活动 (二进制: 是或否) |
Paidclass |
额外付费类 (二进制: 是或否) |
互联网 |
在家上网 (二进制: 是或否) |
苗圃 |
参加幼儿园 (二进制: 是 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[20033],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。