2021-4-10 | 教育相關(guān)
摘要:決策樹學(xué)習(xí)是人們廣泛使用的一種歸納推理形式。先就決策樹和決策樹學(xué)習(xí)算法進(jìn)行介紹,然后用實(shí)例闡述決策樹在教育信息處理中的應(yīng)用,主要以在教學(xué)評(píng)價(jià)中的應(yīng)用為例來加以介紹。
關(guān)鍵詞:決策樹;數(shù)據(jù)挖掘;教育信息處理;教學(xué)評(píng)價(jià)
當(dāng)今社會(huì)處于一個(gè)信息爆炸的時(shí)代,海量的數(shù)據(jù)可以用來選擇和發(fā)掘信息,然而有時(shí)卻讓人無從下手,因此數(shù)據(jù)挖掘技術(shù)受到人們的高度關(guān)注。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的或者隨機(jī)的數(shù)據(jù)中提取人們事先不知道的但又是有用的信息和知識(shí)的過程。它的方法很多,其中決策樹是一種解決實(shí)際應(yīng)用分類問題的數(shù)據(jù)挖掘方法。在教育教學(xué)中,根據(jù)決策樹算法的實(shí)際特點(diǎn),它可以在教育信息處理中的信息采集上發(fā)揮很大的作用。
1 決策樹介紹
決策樹學(xué)習(xí)是人們廣泛使用的一種歸納推理形式。決策樹起源于概念學(xué)習(xí)系統(tǒng),其思路是找出最有分辨能力的屬性,把數(shù)據(jù)庫劃分為許多子集(對(duì)應(yīng)樹的一個(gè)分枝),構(gòu)成一個(gè)分枝過程,然后對(duì)每一個(gè)子集遞歸調(diào)用分支過程,直到所有子集包含同一類的數(shù)據(jù)。最后得到的決策樹能對(duì)新的例子進(jìn)行分類。它一般是從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。它一般需要給定一組訓(xùn)練例子,訓(xùn)練例子一般被看成用于創(chuàng)建模型的數(shù)據(jù)集。由此可以看出,決策樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每一個(gè)內(nèi)部結(jié)點(diǎn)表示對(duì)一個(gè)屬性的測試,每一個(gè)分支代表一個(gè)決策輸出,而每個(gè)葉節(jié)點(diǎn)代表一個(gè)目標(biāo)分類。決策樹通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類,樹上每個(gè)節(jié)點(diǎn)說明對(duì)實(shí)例的某個(gè)屬性的測試,節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。假如需要根據(jù)人員的外貌特征對(duì)人員進(jìn)行分類,用于人員的外貌特征有3個(gè),外貌列表={高度,發(fā)色,眼睛};各屬性的值域分別為:高度={高,矮},發(fā)色={黑色,紅色,金色},眼睛={黑色,棕色}。分類結(jié)果有兩種:種類={+,-}。提供的訓(xùn)練例子集為:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,紅色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可構(gòu)造圖1所示決策樹。
2 決策樹學(xué)習(xí)算法
決策樹算法有幾種,如ID3、C4.5、CART等。其中ID3算法是最經(jīng)典的算法,該算法從根節(jié)點(diǎn)開始,這個(gè)根結(jié)點(diǎn)被賦予一個(gè)最好的屬性。隨后對(duì)該屬性的每個(gè)取值都生成相應(yīng)的分支,在每個(gè)分支的終點(diǎn)上又生成新的節(jié)點(diǎn)。然后按照該屬性的取值將每個(gè)訓(xùn)練例子都分別賦給一個(gè)相應(yīng)的新節(jié)點(diǎn)。如果沒有任何訓(xùn)練例子能賦給某個(gè)節(jié)點(diǎn),那么該節(jié)點(diǎn)連同相應(yīng)的分支都將被刪除。這時(shí),將每一個(gè)新節(jié)點(diǎn)都視作一個(gè)新的根節(jié)點(diǎn),重復(fù)執(zhí)行整個(gè)過程。這里,最好屬性的選擇要基于信息增益這個(gè)統(tǒng)計(jì)特性。在定義信息增益前,先要了解另一統(tǒng)計(jì)特性:熵。
給定一組有c個(gè)分類的訓(xùn)練例子,對(duì)屬性a來說,它有值v,那么它的熵E定義為:E(a=v)=。其中pi是在第i類中屬性a取值為v的概率。為了能選出最好的屬性,需要使用度量信息增益。一屬性的信息增益就是按照該屬性對(duì)訓(xùn)練例子進(jìn)行劃分所帶來的熵的減少量,定義:Gain(T,A)=E(T)-。其中,T是訓(xùn)練例子的集合,Tj是屬性A取值為j的訓(xùn)練例子集合,為T的一個(gè)子集。
3 決策樹在教育中的應(yīng)用
在教育教學(xué)中,尤其是在高等教育體系中,學(xué)校的數(shù)據(jù)庫中存貯著大量的教育教學(xué)信息,其中一部分和教學(xué)有關(guān),如學(xué)校的開課排課情況、教師情況;一部分和學(xué)生有關(guān),如學(xué)生歷年的考試、測驗(yàn)成績等。這些大量的數(shù)據(jù)后面隱藏著大量的信息,只要加以分析,就能得到許多有用的信息,如教育規(guī)律、學(xué)生的培養(yǎng)模式、學(xué)生學(xué)科間的差異性和相關(guān)性的一些規(guī)律。這些規(guī)律對(duì)教育管理決策來說是相當(dāng)重要的,對(duì)教育教學(xué)改革有指導(dǎo)性的意義。
3.1 決策樹在教育信息處理中的應(yīng)用
決策樹表示的是一個(gè)離散值函數(shù),樹中每一個(gè)節(jié)點(diǎn)表示一個(gè)屬性,同時(shí)目標(biāo)分類具有離散的輸出值信息。教育中的大量信息,一般都是對(duì)一些離散的數(shù)據(jù)進(jìn)行分析,比如學(xué)習(xí)成績一般分成優(yōu)、良、中、差,外語六級(jí)成績分成過與未過,這些信息都可以用決策樹來加以分類歸納,對(duì)于連續(xù)的屬性值,也可以進(jìn)行離散化處理后再利用決策樹來加以分析。
3.2 決策樹在教學(xué)評(píng)價(jià)中的應(yīng)用案例
決策樹在教育信息處理中的應(yīng)用很廣泛,下面以決策樹在教學(xué)評(píng)價(jià)中的應(yīng)用為例,來說明在教育信息處理中是如何使用決策樹來分析的。教學(xué)評(píng)價(jià)在教育中是一個(gè)重要的問題,它是指依據(jù)一定的教學(xué)目標(biāo)與教學(xué)規(guī)范標(biāo)準(zhǔn),通過對(duì)學(xué)校教與學(xué)等教育情況的系統(tǒng)檢測與考核,評(píng)定其教學(xué)效果與教學(xué)目標(biāo)的實(shí)現(xiàn)程度。教學(xué)評(píng)價(jià)具有復(fù)雜性、多因素性和模糊性等特點(diǎn)。如何客觀、科學(xué)、全面地對(duì)教學(xué)進(jìn)行評(píng)價(jià),是教學(xué)評(píng)價(jià)中一個(gè)重要的課題,下面嘗試將決策樹應(yīng)用于教學(xué)評(píng)價(jià)。
在評(píng)價(jià)之初要有一個(gè)數(shù)據(jù)采集的過程,之后可以用決策樹來加以分析。課堂教學(xué)評(píng)價(jià)指標(biāo)體系分為若干項(xiàng),從教師的角度可以分為授課態(tài)度A1、授課方法A2、授課內(nèi)容A3、授課效果A4、教學(xué)評(píng)價(jià)A5,可以取訓(xùn)練例子如表1所示。