2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

基于機器學習的推薦與評價方法

來源:期刊VIP網所屬分類:軟件開發時間:瀏覽:

  摘 要:IT類專業學生由于其專業特點,企業實習環節往往貫穿整個培養過程,實習環節效果的好壞直接影響到學生的能力培養與就業質量。如何將實習單位的資源配置、業務特點及學生專長與興趣等因素進行有機整合,是改善和提高實習效果的有效途徑。本文基于機器學習的方法,對IT專業學生實習單位推薦與評價開展了研究工作,以某高校計算機專業歷年的實習、評價和就業等相關數據為學習樣本,自動學習和生成推薦模型與評價體系。實際應用效果表明:該系統能為實習組織工作提供更加客觀的決策支持信息,有效提高學生的實習與就業質量。

  關鍵詞:推薦系統;機器學習;評價系統

軟件開發論文

  1 引言(Introduction)

  國家信息化建設的迫切需求催生了大量IT企業的涌現,同時也提出了持續性的IT專業人才需求。順應這種趨勢,幾乎所有的高校都開設了IT類專業。在廣招生源的同時,各培養單位也都意識到企業實習環節在IT類專業學生培養過程中的重要性,也開展了大量有針對性的研究工作。

  文獻[1]對工科類大學生的成長方式進行了探索與總結,通過雷達圖的形式給出了“實習、實訓”和“科技創新訓練”環節對學生就業能力培養的影響,詳細的論述了以就業為導向的工科類大學生培養應該尤其注重加強企業實習環節的管理,充分利用好這一寶貴的社會資源,以培養出能滿足社會需求的專業人才;文獻[2]基于“5S管理理論”分析和論述了加強高校學生實習、實訓環節管理工作的必要性,并給出了相關的實施流程及可行性分析報告;文獻[3]以促進學生就業為出發點,詳盡的介紹了美國高校對于學生實習的有關價值觀念的形成過程和與之相對應的政策制定與演進,實習過程的組織與效果測評等內容。隨后與我國的相關制度與組織過程進行了深入對比,強調了“制度化”作為“基石”的重要性;文獻[4]也從促進學生就業的角度出發,探討了加強實習基地建設,緩解就業壓力和提高就業質量的必要性和緊迫性,并對研究小組所開展的探索工作進行了簡潔的總結與反思;文獻[5]分析了在信息化背景下,教與學的過程在執行環節中存在的一些問題,著重強調了“過程”的重要性。而實習環節也是整個過程中極為重要的一個環節。

  2 機器學習輔助決策(Decision-Making aided bymachine learning)

  機器學習是指使用計算機通過模擬人類學習和獲取信息的準則,以預測為目標的一系列過程。它包括統計建模、優化處理、算法設計和統計分析等,涉及數學、統計學和計算機科學等多個學科[6]。通過幾十年的發展,尤其是隨著計算機處理和存儲能力的日益提高,機器學習目前已經成為一個熱點研究領域,并和各行各業緊密結合,成為一門“利器”。決策論作為運籌學的一個重要分支,為決策分析提供了堅實的理論基礎[7]。傳統意義上的決策論往往需要預先給定一個評價準則,隨后在給定的信息集上通過數量方法來尋找或選取最優決策。當面臨的數據維度較高,組成復雜的時候,常規的數量方法難以挖掘出高維數據中所隱含的特征,導致容易偏離最優決策。這種情況下,可以通過利用新的技術手段進行高維數據挖掘來改善效果;也可以轉變角色,退化為輔助決策來繼續發揮作用。麻省理工學院的資深學者Theja Tulabandhula和Cynthia Rudin在文獻[8]中提出了一種綁定機器學習和決策的框架,并在航線規劃和交通路徑規劃(ML&TRP;)等實際應用領域開展了驗證性研究工作,在一定程度上證明了該方法的理論基礎和實際可行性。文獻[9]利用貝葉斯網絡對不確定性問題的表達與處理能力,設計了一套網絡交互教學效果評價系統,能有效改善網絡教學效果評價的質量。

  本研究小組對我院計算機科學與技術、軟件工程、網絡工程等三個專業,自2011年以來的實習與就業相關數據進行收集整理,涉及相關學生累計達785人,實習與就業單位達325家,統計的多維度的單位信息、學生信息、實習組織相關信息、評價與反饋信息等記錄高達300多萬條(維)。依靠人工已經難以充分和有效的挖掘出這些信息內部所包含的有價值信息,以為后續實習工作提供輔助決策。因此,本文利用機器學習的方法對2011—2014年的相關數據進行學習,從高維度數據中學習出各個實習/就業單位和學生的相關特征,給出明確的類別標識,并作為決策信息為2015屆的實習與就業組織工作提供參考依據。

  3 輔助決策的推薦系統構建(Construction ofrecommendation system for aided decision-making)

  從宏觀上來說,將合適的學生派遣至合適的實習單位,能充分發揮主觀能動性和資源配置優勢,達到最好的實習效果,從而提升學生的整體就業競爭力。具體到每位學生,只能從眾多的待選實習單位中選擇一家進行派遣,且在實習過程中進行改派的可操作性也不強。因此,如何準確的對實習單位和待派學生進行特征分析與匹配,成為要解決的關鍵問題之一,也是首要問題。具有自然屬性的“實習單位”和“實習生”完全能符合“物以類聚,人以群分”的屬性,如果能借助于機器學習算法對“實習單位”和“實習生”進行合理的分析與劃分,將能有效的提高實習派遣與管理的效率和改善效果。

  本系統的構建目標即為:利用機器學習算法,以歷史的實習與就業數據為樣本,對相關實習單位按照多維特征值進行聚類操作,形成k個類;在實習派遣階段,再利用分類算法,將每名學生分到k類中的一個。這樣就能建立起一名學生到某類實習單位之間的映射關系,輔助決策推薦系統示意圖如圖1所示。

  在圖1中,m為學生總數,n為實習單位總數,k為實習單位總類數,其中,n>>k。通過該“聚類—分類”操作,實習派遣操作就轉換為從系統為某位同學推薦的一類實習單位中選擇一個的問題。該系統要能完成相關功能操作,需要解決如下兩項關鍵問題:

  3.1 聚類算法選擇

  聚類算法目前已經在眾多領域得到廣泛的應用并取得了良好的效果,尤其是在商業推薦、社團劃分等應用領域。在本系統中,聚類算法的目標為:從紛繁蕪雜的實習單位相關高維數據中,提取出關鍵性的特征向量,并以此為依據將所有的實習單位聚為k個類。這k個類將作為后續分類操作的依據。聚類操作的起源可以追溯至古老的分類學,在計算機的存儲和處理能力達到一定水平之前,利用數學工具進行定量的分析存在著困難,人類只能在經驗和專業知識的基礎上執行帶有較強主觀色彩的判斷。這種方式已經難以適應目前以大數據量為背景的應用場景。與此同時,各種基于機器學習的聚類算法大量涌現并且開始具有實際應用價值。其中,基于劃分式的方法發展得到了較多的關注,研究成果也較為豐富。劃分法的基本思想為:給定一個包含N個元素的數據集,通過分裂的方法將其構造為k個分組。為了保障算法快速收斂,一般會要求同一分組中的元素之間的距離滿足一個給定的閾值(距離小則認為相似度高)。

  (1)K-MEANS算法

  K-MEANS算法是一種較為經典的聚類算法,其基本思想為:根據總類別數量k,在樣本中隨機找出k個點來作為原始的類中心點,然后計算余下的點與選定的k個點的距離,按照距離將其歸入某類,完成操作后再重新計算k類中所有距離的平均值并將其作為新的中心點,不斷的迭代,直到測度函數收斂(中心點不再發生明顯變化)。通過該算法,可以將相識度高的點聚為一類,同時將不同類之間盡量分開。但是,利用K-MEANS算法所劃分的類別之間的差異度往往不夠大,且對樣本數據要求較高,在實際的應用過程中需要采取各種改進措施。

  (2)K-MEDOIDS算法

  為了克服K-MEANS算法對臟數據敏感的缺點,K-MEDOIDS算法利用一個對象(MEDOIDS)來代替初始中心點,然后進行初始聚類,再找出類中到其他點距離之和最小的點作為新的中心點,再重復該操作直到收斂。Partitioning Around Medoids(PAM)算法是該類算法中具有代表性的一種,但是由于存在較多的循環和迭代運算,算法復雜度較高——O(k(n-k)2)。文獻[9]提出了一種簡單高效的啟發式算法將計算復雜度降低為——O(nk),使得其實用性大幅度提高。

  在實際操作過程中,并不會向所有的實習單位都派遣實習生,尤其對于IT企業,單位來源的動態性也較強,即使是同一單位,在不同時期所體現出的對實習生的特征也不盡相同(根據企業實際工程項目)。因此,對實習單位的聚類操作需要動態的進行,以適應實際情況。經過綜合對比分析和實驗測試,我們選擇文獻[10]提出的基于K-MEDOIDS的改進算法來作為本系統的聚類算法。

  3.2 分類算法選擇

  分類算法的研究工作也積累了大量的研究成果,可供選擇的面也較為豐富。但本系統所需的分類方法有極強的特性,主要體現為:企業類和實習生不具有同構性,即某類企業的特征與某名學生的特征沒有直接的相似性,不能直接按聚合的k類來對學生進行分類。因此,我們需要建立起企業類到實習生之間的關聯規則,以實現將某位學生到某類企業直接的關聯(推薦依據)。任務轉換為“關聯規則挖掘問題”,該問題是數據挖掘中的一個重要領域,而基于關聯規則的分類方法通常包含兩個基本步驟:首先,利用算法從樣本數據集中挖掘出所有的滿足預先指定支持度和置信度的類關聯規則;接下來利用啟發式算法從第一步給出的類關聯規則中挑選出恰當的規則,用于分類操作。采用在線學習的思想,文獻[11]提出了一種如圖2所示的模糊關聯規則挖掘方法。

  如圖2所示的關聯規則方法可簡述為:首先給出一個預定義的隸屬函數,通過學習過程來學習事務數據庫中的對象(企業類/實習生數據集)并在線對模型的適應度進行評估,最后給出確定的隸屬函數,再利用模糊挖掘方法從數據集中挖掘出模糊關聯規則,用于指導分類過程。利用該方法可以有效的解決本研究所涉及的異構對象之間的關聯問題,模型評估過程可以作為下一階段效果評價環節的反饋入口,提高準確率、增強系統的適應性。

  4 效果評價模型(Effect evaluation model)

  單純考慮具體的實習成績評定等細節性環節,往往會導致效果評價環節流于形式,失去評價的作用。本系統將綜合考慮實習生反饋、企業反饋、就業情況、教師評價等多方面的因素,力爭客觀評價,且對實習效果的評價將作為影響因子(λ)反饋至系統的分類模型環節,用于評估、調整隸屬模型,更好的支撐模糊關聯規則的挖掘過程,從而改進派遣環節的分類效果,提高派遣環節的針對性,最終促進和提高實習效果,實現實習生、學校和實習單位三方的和諧發展。λ的構成如表1所示。

  實習生可以在實習報告中,對實習派遣與預期情況的匹配程度進行打分評價,占0.2的權值;實習單位可以通過實習生的實習報告向學校反饋其是否愿意繼續接納同類實習生,以及給出相關評語等,占0.2權值;責任教師可以結合日常考核來對學生實習期間的表現進行打分和評定,如有必要,也可以給出相關說明,該環節類似于傳統的實習成績評定,占0.1的權值;領導小組負責后續就業相關情況的跟進調查,主要依據是就業協議書、就業合同和走訪調查的結果等,占0.5的權值。因為就業情況能比較客觀的反映實習派遣的效果,例如,如果某位實習生從系統推薦的一類實習單位中選擇一個并最終在該實習單位就業,認為該派遣為一項正確的派遣,故設定較高的權值,有利于隸屬函數的優化和關聯規則的挖掘。評價模型輸出的λ值為歸一化的標準值,可以直接應用于反饋環節。

  5 應用效果與分析(Application effect and analysis)

  本小組將系統應用在我院2015屆161名畢業生的實習派遣和效果評價環節,并對效果進行了分析。總的實習單位數量為78個(基本都為網絡、軟件、培訓等IT類企業),實習單位聚類情況如圖3所示。

  分析圖3的數據,我們可以發現,系統將這78家單位聚為25個類,且絕大多數的類包含的單位數量都在2至5家,僅有三個單選類,我們查看原始數據發現其分別為醫療、交通和政府機構等與IT企業相關性不強的單位,因而很難找到共性特征。這樣的聚類效果為后續模糊關聯和推薦打下了較好的基礎。

  在所有的161名畢業生中,有五人與非IT類單位有明確的就業意向,其實習派遣直接指定。實際參與推薦的實習生總共為156名,所有的同學都很快的從推薦類中選取了自己認為合適的單位并順利完成實習過程。目前共確定有效就業人數為155人,占總畢業人數的96.2%,統計數據具有說服力。在應用本系統之前,實習派遣很難有針對性的開展,學生最后的就業也基本與實習單位沒有關聯。應用本系統后的2015屆畢業生中,有87人在實習單位就業,有10人表示期望與實際情況不符合,有16家實習單位表示實習生能力有待提高,將加權統計得到的λ值反饋至模糊關聯學習模塊,系統為8名學生給出了與之前不一樣的推薦類。這表明系統在具備穩定性的同時,也能根據實際情況進行自適應調節。

  6 結論(Conclusion)

  大數據這一名詞不僅頻繁出現在學術界、政府報告和各類媒體中,它實際上已經滲透到人們日常生活的各個層面。高效且成熟的機器學習算法恰好為我們提供了分析和挖掘大數據背后隱含規律的工具。本文利用機器學習算法,通過對我們近年來積累的大量實習單位、實習生和就業信息數據進行挖掘,學習并構建出了具有實用性的IT專業學生實習單位推薦與評價系統。在通過聚類算法實現對實習單位準確聚類的基礎上,利用數據挖掘方法得出實習生與實習單位直接的模糊關聯規則,將其作為指導實習派遣的決策依據,實現高效且有針對性的派遣決策。為適應實習單位和實習生的動態變化特點,系統給出綜合模型來對實習效果進行評價,并以此作為反饋因子來指導前述關聯規則的挖掘,使系統具備自適應特性。實際應用效果也進一步驗證了系統的合理性和可行性。

  本系統的推薦部分已經具備了可直接使用的原型系統,但是在評價部分還存在進一步完善之處。比如:反饋環節的原始信息目前基于紙質材料,部分評價主體基于客觀因素可能會做出不太客觀的評價,后續考慮修應用遠程在線式評價系統,實現評價主體的“盲評”,增強客觀性。此外,評價權重值分配是否存在完善之處,還有待進一步驗證。

  參考文獻(References)

  [1] 于欣欣,李兆博.工科類大學生成長路徑的研究與探索[J].現代教育管理,2015(1):124-128.

  [2] 何瑜.高校學生實訓實習管理模式創新研究——基于5S管理理論[J].內蒙古師范大學學報(教育科學版),2015,05:76-77.

  [3] 朱紅,凱倫·阿諾德,陳永利.制度的基石、保障與功能——中美大學生實習比較及對就業的啟示[J].北京大學教育評論,2012,01:107-123;190.

  [4] 詹一虹,侯順.加強實習基地建設拓寬高校畢業生就業渠道[J].教育研究,2006,09:90-92.

  [5] 蔡旻君.信息技術環境下“學”與“教”分離現象透視和成因分析[J].電化教育研究,2013,02:93-99.

  [6] Christopher Bishop.Pattern recognition and machine learning

  [M].springer,2007:138-216.

  [7] Perry J.Williams,Mevin B.Hooten.Combining statistical inference and decisions in ecology[J].Ecological Applications,

  2016,26(6):1930-1942.

  [8] Tulabandhula T,Rudin C.On combining machine learning with decision making[J].Machine Learning,2014,97(1-2):33-64.

  [9] 張曉勇,彭軍,文孟飛.基于貝葉斯網絡的網絡交互教學成效評價系統[J].現代遠程教育研究,2012,04:85-90.

  [10] Park H S,Jun C H.A simple and fast algorithm for K-medoids clustering[J].Expert Systems with Applications,2009,36(2):3336-3341.

  [11] Alcalá-Fdez J,Alcalá R,Gacto M J,et al.Learning the membership function contexts for mining fuzzy association rules by using genetic algorithms[J].Fuzzy Sets and Systems,2009,160(7):905-921.

主站蜘蛛池模板: 泸溪县| 房产| 长乐市| 英德市| 印江| 昌邑市| 翼城县| 南投市| 浦城县| 白水县| 外汇| 华阴市| 天气| 林西县| 双流县| 江阴市| 阳曲县| 靖边县| 彝良县| 平顶山市| 长兴县| 东山县| 康定县| 桃江县| 吴江市| 桐柏县| 河间市| 南华县| 高平市| 祁东县| 天柱县| 马龙县| 中卫市| 万州区| 东方市| 始兴县| 福鼎市| 桑日县| 张家界市| 崇礼县| 永和县|