2019亚洲日韩新视频_97精品在线观看_国产成人精品一区二区_91精品网站在线观看

支持向量機在意大利葡萄酒種類識別中的應用

來源:期刊VIP網所屬分類:綜合論文時間:瀏覽:

  摘 要:葡萄酒的化學成分是辨別葡萄酒品種的主要依據。考慮到常規檢測方法復雜、繁瑣,準確率低,選擇機器學習方法識別葡萄酒種類。針對目前常用的K均值算法在葡萄酒識別中存在的問題,嘗試使用支持向量機進行分類,并與K均值算法進行對比分析。結果表明,基于支持向量機的模型分類性能更好,準確率達到98.15%。

  關鍵詞:葡萄酒識別;機器學習;支持向量機;K均值

葡萄酒識別

  0 引言

  葡萄酒的化學成分復雜,因此是區分不同葡萄酒的重要依據。在進行葡萄酒識別時,目前國內外常用的檢測方法是化學成分分析法和感官評價法。化學成分分析法[1]是指采用近紅外光譜[2]和三維熒光光譜等技術檢測葡萄酒化學成分,從而區分不同葡萄酒。采用該技術需要專業的化學知識,步驟繁瑣、成本高,而且無法檢測葡萄酒所有化學成分。感官評價法是指根據品酒師個人經驗,憑借感官鑒別葡萄酒種類。該方法雖然成本較低,但是主觀性很強,分類準確率很容易受到品酒師個人經驗的影響。因此,本文使用機器學習方法識別葡萄酒種類。

  目前機器學習領域常用的幾種分類器為:邏輯回歸、人工神經網絡、決策樹和支持向量機。邏輯回歸[3-4]操作簡單、容易解釋,支持數值變量和分類變量,是學者們最常使用的分類器,但其更適用于二分類問題,即只有兩個類別,而本文葡萄酒類別有3個,出于準確率的考慮,本文舍棄該方法;在樣本量充足的情況下,人工神經網絡[5-7]分類準確率較高,但本文樣本只有178個,不滿足神經網絡對樣本量的要求;決策樹[8-9]簡單、直觀,但在實際使用時經常會出現過擬合的情況,即訓練集準確率很高,而測試集準確率很低;支持向量機在解決小樣本識別問題中體現出其它分類器所不具備的優勢,并且通過定義恰當的核函數可解決神經網絡局部最優問題。鑒于上述分析,本文選擇支持向量機進行葡萄酒種類識別。

  1 數據來源與可視化

  1.1 數據來源

  本文葡萄酒數據來自于UCI數據庫的wine數據集,記錄了意大利同一地區3種不同品種葡萄酒的13種化學成分。本次擬分類樣本共有178個,每個樣本有13個屬性。葡萄酒共分為3種類別,其中類別1包含59個樣本,類別2包含71個樣本,類別3包含48個樣本。

  1.2 字段解釋

  數據集共包括以下13個字段,都為葡萄酒化學成分,屬性含義如表1所示。

  1.3 數據可視化

  通過畫出屬性的二維散點圖,以直觀分析數據分布情況。樣本散點圖如圖1所示。

  由于從圖1中很難區分出每種葡萄酒屬于哪個類別,因此接下來構建支持向量機模型對葡萄酒進行分類。

  2 基于支持向量機的模型構建

  2.1 理論介紹

  支持向量機[10-12]簡稱SVM,是一種非常常見的廣義線性分類器,主要用于小樣本數據的分類與回歸問題,其最終目標是找到一個最優超平面對樣本進行分割。支持向量機可分為3種類別:完全線性可分支持向量機、部分線性可分支持向量機與線性不可分支持向量機。

  完全線性可分支持向量機原理如圖2所示。圖中,實心點和空心點代表兩類不同樣本,[H]為分類超平面,[H1、H2]為經過兩類樣本的所有平面中,離分類超平面最近,且平行于分類超平面的平面,[H1]與[H2]之間距離稱為分類間隔。所謂最優分類面就是在正確區分兩類樣本的同時,使分類間隔達到最大的分類面。

  推薦閱讀:葡萄酒文化類期刊投稿

主站蜘蛛池模板: 郓城县| 呼伦贝尔市| 钦州市| 北海市| 集贤县| 云和县| 湘乡市| 汕尾市| 澜沧| 射洪县| 肃北| 荣成市| 敖汉旗| 大荔县| 三穗县| 玛纳斯县| 荃湾区| 望奎县| 新河县| 上饶县| 清原| 山西省| 大埔区| 普格县| 雅安市| 开封市| 安化县| 绩溪县| 新建县| 阿荣旗| 台山市| 新泰市| 山丹县| 永德县| 瑞昌市| 衢州市| 新河县| 本溪市| 郴州市| 荔浦县| 师宗县|