2021-4-10 | 心理健康教育論文
1數(shù)據(jù)準備
1.1數(shù)據(jù)選擇
本文采用癥狀自評量表(SCL-90),通過對某中職學校2011級學生進行心理健康狀況測試得到的數(shù)據(jù),發(fā)出問卷413份,其中有效問卷377份,有效率為91.3%。
1.2數(shù)據(jù)預處理
數(shù)據(jù)挖掘的目的是從日常業(yè)務數(shù)據(jù)中抽取一些有價值的知識或信息,但實際的數(shù)據(jù)庫太大,極易受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)的侵擾,這就給后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘帶來極大的不便,甚至導致錯誤的結論,所以有必要對數(shù)據(jù)進行預處理。經(jīng)驗表明,只有通過前期細致的數(shù)據(jù)準備工作,才能在數(shù)據(jù)挖掘過程中節(jié)省挖掘的時間,提高挖掘的效率,得到高質量的挖掘結果。常見的數(shù)據(jù)預處理方法有多種,包括數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等。
1)數(shù)據(jù)抽取
在數(shù)據(jù)挖掘過程中一般并不需要使用所有的數(shù)據(jù),有些數(shù)據(jù)對構建數(shù)據(jù)模型干擾不大,有些數(shù)據(jù)會降低挖掘計算的效率,甚至可能導致謬誤,并且這些數(shù)據(jù)對最終的數(shù)據(jù)分析沒有任何益處,也不會影響正確結論的獲得。因此,根據(jù)所定義的項目任務,確定所需的數(shù)據(jù)源,并從中收集和提取數(shù)據(jù),查找數(shù)據(jù)屬性特征,減少數(shù)據(jù)規(guī)模,使得在不影響數(shù)據(jù)分析基礎上最大可能地精簡數(shù)據(jù)量,方便挖掘出數(shù)據(jù)之間隱含的規(guī)律和內(nèi)在的聯(lián)系。在收集到的中職學生心理健康測試數(shù)據(jù)中有很多屬性,其中有一些屬性與挖掘任務之間沒有太大關系,或數(shù)據(jù)本身沒有挖掘的意義。如學生的學號、姓名、ID號等屬性,這些屬性值都是唯一性的,而且數(shù)據(jù)量又很大,只會增加挖掘計算的時間和空間,可以直接刪除。另外,像民族、出生年月、學生類別之類的屬性,由于選取的數(shù)據(jù)中有八成以上為漢族學生,全部是2011級,類別過于集中,沒有分類的意義,對挖掘的結果影響不大,因此在數(shù)據(jù)提取時也需要清除這部分屬性值,使得數(shù)據(jù)規(guī)模得以降低。根據(jù)中職學生心理健康數(shù)據(jù)的特點,經(jīng)過數(shù)據(jù)抽取,確定了與挖掘任務相關的學生基本屬性是性別、獨生子女、專業(yè)、家庭所在地,分別對軀體化、強迫癥狀、人際關系敏感、抑郁、焦慮、敵對、恐怖、偏執(zhí)、精神病性等十個心理癥狀進行挖掘。
2)數(shù)據(jù)清洗
數(shù)據(jù)清洗目的是通過檢測數(shù)據(jù)中存在的錯誤和不一致來清理數(shù)據(jù),包括空值處理、噪聲處理及不一致數(shù)據(jù)的處理等。該文所使用的數(shù)據(jù)集在收回癥狀自評量表時已經(jīng)對數(shù)據(jù)的有效性做了初步的篩選,剔除了存在較大缺失的測試數(shù)據(jù)。因此,在數(shù)據(jù)清理這個環(huán)節(jié)主要針對數(shù)據(jù)中的不完整性、不一致性進一步篩查,確保數(shù)據(jù)的有效性。在心理測試過程中,由于學生填涂不規(guī)范、錯填或者其他因素干擾等原因,導致數(shù)據(jù)不完整,會產(chǎn)生大量的噪聲數(shù)據(jù)。這些錯誤數(shù)據(jù)和空值數(shù)據(jù)、重復數(shù)據(jù)需要通過預處理方法進行數(shù)據(jù)清洗。經(jīng)過對數(shù)據(jù)空值及不一致性的清理后,所得到的數(shù)據(jù)質量有了很大的提高,保證了數(shù)據(jù)挖掘結果的準確性和有效性。
3)數(shù)據(jù)轉換
數(shù)據(jù)轉換的基本原則是連續(xù)型數(shù)據(jù)離散化,離散型數(shù)據(jù)類別化。源數(shù)據(jù)中有些數(shù)據(jù)是連續(xù)型的,還有些數(shù)據(jù)雖是離散型,但其分類太多,如家庭所在地屬性值分散較廣,專業(yè)屬性值有多個等,不利于進行數(shù)據(jù)挖掘,必須轉換。另外,為了提高挖掘的效率,必須規(guī)范數(shù)據(jù)格式,中文屬性值可用一些英文字符或數(shù)字編號替代。
2數(shù)據(jù)分類規(guī)則挖掘方法-基于決策樹模型的方法
數(shù)據(jù)分類是數(shù)據(jù)挖掘技術的主要組成部分,采用KDD技術對數(shù)據(jù)進行有效分析。它能找出描述數(shù)據(jù)類或概念的模型,以便能使用模型預測類來標記未知的對象類。在眾多的分類挖掘技術中,決策樹方法以其算法容易理解,易生成分類規(guī)則等優(yōu)點被廣泛研究和應用。
2.1決策樹概述
決策樹方法首先對數(shù)據(jù)進行處理,構建分類模型,生成決策樹,利用生成的分類規(guī)則對新數(shù)據(jù)進行分析。本質上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。決策樹是一個可以自動對數(shù)據(jù)進行分類的倒置樹形結構,采用自頂向下的遞歸方式,對它的每個內(nèi)部節(jié)點進行一個屬性上的測試,對每個節(jié)點上問題的不同回答引出兩個或多個分支,導致不同的結果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹中最頂層的節(jié)點稱為根節(jié)點,是整個決策樹的開始。每個節(jié)點代表一個屬性,并根據(jù)屬性值的不同判斷該節(jié)點向下的分支,最終會到達葉節(jié)點。其中每個分支代表它所連接的上節(jié)點在其屬性上的可能取值,每個葉節(jié)點對應一個類別。根據(jù)類別屬性建立一個類似流程圖的樹形結構,從根結點到葉結點的一條路徑就形成了一個分類規(guī)則,整個決策樹就相應形成一組析取規(guī)則,這樣就很容易轉換成IF-THEN形式的分類規(guī)則,根據(jù)這個分類規(guī)則就可以比較容易地對新數(shù)據(jù)進行分類識別和預測。
2.2ID3算法
生成決策樹的一個著名算法是ID3算法,是由Quinlan等人于1986年提出的,其基本思想是自頂向下遞歸地搜索訓練樣本集,在每個節(jié)點處測試每一個屬性,從而構成決策樹。ID3算法在每個非葉節(jié)點選擇信息增益最大的屬性作為測試屬性。ID3算法的核心是確定分支準則,即如何從眾多的屬性變量中選擇一個最佳的分裂屬性。通常,在樹的每個非葉節(jié)點選擇具有信息增益最大的屬性作為當前節(jié)點的測試屬性,使得對結果劃分中的樣本分類所需的信息量最小,并確保找到一棵相對簡單的樹。算法計算每個屬性的信息增益,具有最高信息增益的屬性選作給定集合的根節(jié)點,然后依次比對節(jié)點和訓練樣本中的其他屬性值,完成對訓練樣本的劃分。
3基于決策樹的中職學生心理健康模型的發(fā)現(xiàn)
將汽車制造與檢修、計算機網(wǎng)絡技術、機電技術應用三個專業(yè)學生的數(shù)據(jù)抽出,共有242條記錄作為訓練數(shù)據(jù)集進行決策樹挖掘。具體包含了中職學生相關屬性(性別、獨生子女、專業(yè)、家庭所在地)和癥狀自評量表10個維度(軀體化、強迫癥狀、人際關系敏感、抑郁、焦慮、敵對、恐怖、偏執(zhí)、精神病性、其他)共14個字段。這里,將挖掘任務具體為分析焦慮癥狀與中職學生的哪些屬性相關,其相關程度如何。因此,選擇性別、獨生子女、專業(yè)、家庭所在地以及焦慮作為決策樹挖掘字段,生成如圖1所示決策樹。其中用JL1和JL2分別代表學生有焦慮癥狀和無焦慮癥狀。采用決策樹的最大特點就是能方便地提取分類規(guī)則,并使用IF...THEN形式表示對應的分類規(guī)則。IF...THEN規(guī)則就是從根節(jié)點到葉節(jié)點的每條路徑生成一個規(guī)則,據(jù)此可以得到如下判定學生是否焦慮的規(guī)則:IF獨生子女=“是”and專業(yè)=“機電技術應用”and性別=“男”and家庭所在地=“農(nóng)村”THEN有焦慮癥狀;IF獨生子女=“是”and專業(yè)=“機電技術應用”and性別=“男”and家庭所在地=“中小城市”THEN無焦慮癥狀;IF獨生子女=“是”and專業(yè)=“計算機網(wǎng)絡技術”and性別=“男”THEN有焦慮癥狀;IF獨生子女=“是”and專業(yè)=“計算機網(wǎng)絡技術”and性別=“女”THEN無焦慮癥狀;IF獨生子女=“否”and專業(yè)=“汽車制造與檢修”and性別=“男”and家庭所在地=“農(nóng)村”THEN無焦慮癥狀;IF獨生子女=“否”and專業(yè)=“汽車制造與檢修”and性別=“女”and家庭所在地=“農(nóng)村”THEN有焦慮癥狀;……從生成的決策樹可以看出,與焦慮癥狀最為相關的學生屬性是是否獨生子女,其次是專業(yè)。從圖中可以得出以下結論:獨生子女的焦慮程度明顯高于非獨生子女,男生的比例明顯高于女生,男生中為獨生子女、專業(yè)為機電技術應用且來自農(nóng)村或小城鎮(zhèn)的學生焦慮癥狀比較普遍。根據(jù)分析的結果,在進行與焦慮癥狀相關的心理咨詢、心理輔導工作中,應對獨生子女、農(nóng)村或小村鎮(zhèn)、機電技術應用專業(yè)男生等容易出現(xiàn)心理問題的群體給予特別的關注,予以適當?shù)囊龑А椭档托睦斫】祮栴}對學生成長的影響。
4結束語
中職學生心理健康問題十分內(nèi)隱,外人無法直接感知,很難體會到有心理疾病學生矛盾、困惑乃至痛苦的內(nèi)心處境。通過對分類規(guī)則挖掘方法的闡述,輔以具體實例進行描述,生成決策樹,并提取相應的分類規(guī)則,方便學校心理咨詢老師和學生管理部門對心理問題比較集中的中職學生人群進行提前干預,盡力控制心理疾病的發(fā)生,以提高中職學生的心理健康教育水平,讓中職學生能夠走出心理困境,健康成長。
本文作者:方勝 單位:安徽電氣工程學校