期刊刊名:科學與工程技術期刊 卷期:17卷1期
篇名出版日期:2021年3月1日
作者:邱紹豐,馮晉昜,徐尉庭,Shao-Fong Chiou, Ching-Yang Feng, Wei-Ting Hsu
語言:Chinese
關鍵字:缺失值,多重迴歸分析,類神經網路,k-平均分群演算法,Missing Value, Multiple Regression, Artificial Neural Network, K-Means Clustering
被點閱次數:0次
閱讀時間:0sec
摘要: 在大數據分析的過程中,資料的完整性與一致性往往是影響分析結果正確性的很重要因素。因此在分析的程序開始之前,要對所收集的資料來源進行資料清理的工作,以確保後續分析不會因為資料的異常而造成結果的錯誤,因此在資料清理中維持資料的完整性是一項相當重要的工作。造成資料不完整的原因之一是所收集的資料中含有缺失值,而缺失值的出現源自於資料收集過程中人為疏失、儀器故障等因素。目前對於處理缺失值的常見方式為以下幾種 : 將有缺失值的值組直接忽略、或是使用缺失值屬性的集中趨勢量測(如均值、中位數等方式)進行缺失值的填補。這些方法可能會造成將該值組的原有特徵性的流失,對於後續的資料分析、應用的產出造成影響,而導致結果的不正確。針對此問題,本研究針對單一欄位缺失值使用機器學習方法來進行填補。我們以不包含缺失值的資料作為訓練資料,以K-Means分群方式將資料分為多個群集以捕捉資料之間不易見的關聯,每個群集再以多重迴歸以及類神經網路建立預測模型。對需要預測的缺失值首先以KNN演算法求得該資料所屬的群集,再套用該群集的模型來計算預測值。在實驗中證明本研究所提出的多模型填補的方式,在以均方根誤差來統計精準度的結果中,均優於現有的填補演算法。
[ 關閉視窗 ]