找數據集發現了安卓惡意軟體檢測這個方向
就找到了 看了下也不是很新 但是近幾年發文章的人挺多 就這個了 反正也找不到我寫啥
這是幾個安卓惡意軟體數據集
先看幾篇中文論文 別人怎麼做的
前兩章講惡意軟體問題啥的先不管;
第三章寫惡意軟體數據集 一類是惡意樣本共用網站 二類是具有家族資訊的常用數據集 這些數據集幹嘛的有點不懂 分類太多了 跟我論文相關的數據集應該是包含特徵值和標籤的數據集 這樣適合隨機森林機器學習。
第四章 基於特徵碼的惡意軟體檢測 基於特徵碼的惡意軟體檢測方法基本原理是利用每個軟體特有的特徵資訊進行匹配, 即在已知惡意軟體指定特徵碼的情況下, 通過與目標待檢測軟體的特徵碼進行匹配, 如果在已有的惡意軟體特徵碼數據庫中找到相同的特徵碼則將目標軟體判定爲惡意軟體, 否則爲良性軟體.
第五章 基於機器學習的惡意軟體檢測 基於機器學習的惡意軟體檢測方法的基本原理是通過程式分析等技術提取不同的特徵描述待分析樣本的不同行爲, 然後每一個樣本均用一個固定維度向量表示, 最後藉助於現有的機器學習演算法對已知標籤的樣本進行訓練並構建分類器, 從而能夠對未知樣本進行預測判斷
特徵選擇的方法 1是使用app使用的許可權 2是它使用的api介面作爲介面;除了經典的許可權以及 API 特徵之外, 許多研究工作 [15,71∼75] 發現 Android 的相關 Intent、字串以及元件也可以作爲惡意軟體的有效特徵 都可以作爲特徵
另一個方向 數據指的是與 app 應用程式本身程式碼無關的額外描述資訊, 例如該 app 的下載量、功能描述、類別資訊等. 該類資訊可以從另外一個新的角度對現有的特徵進行完善, 從而提升檢測效果.
第六章 基於行爲的檢測方法 下一篇
怎麼感覺這個文章很水。。。
好像是用許可權作爲特徵 訓練樣本 500左右 太少了
Android malware detection based on image-based features and machine learning techniques 基於影象特徵和機器學習技術的安卓惡意軟體檢測
本文提出了一種基於惡意代碼分類的安卓系統惡意代碼檢測模型。該模型基於將 Android 應用程式原始檔轉換爲灰度影象。從已構建的灰度影象數據集中提取了一些基於影象的區域性特徵和全域性特徵,包括4種不同類型的區域性特徵和3種不同類型的全域性特徵,並用於訓練模型。據我們所知,這種型別的特性首次用於 Android 惡意軟體檢測領域。此外,利用視覺詞語袋演算法從每幅影象的區域性特徵描述子中構造出一個特徵向量。這個 extracted local and global features have been used for training multiple machine learning classifiers including Random forest, k-nearest neighbors, Decision Tree, Bagging, AdaBoost and Gradient Boost. The proposed method obtained a very high classification accuracy reached 98.75% with a typical computational time does not exceed 0.018 s for each sample. The results of the proposed model outperformed the results of all compared state-of-art models in term of both classification accuracy and computational time. 提取的區域性和全域性特徵用於訓練多機器學習分類器,包括隨機森林、 k- 最近鄰、決策樹、 Bagging、 AdaBoost 和梯度 Boost。該方法分類準確率達到98.75% ,每個樣本的計算時間不超過0.018秒。該模型的分類精度和計算時間均優於現有模型的分類精度和計算時間
用影象直接學習 可惜我沒學影象處理 要不然就用了
選取 Android 應用的許可權、四大元件、API 呼叫以及程式的關鍵資訊如動態程式碼、反射程式碼、本機程式碼、密碼程式碼和應用程式數據庫等屬性特徵,對特徵屬性進行優化選擇,並生成對應的特徵向量集合
重點特徵選擇
這個論文自己做數據集和反編譯找特徵 ,這我都不會安卓咋搞數據集。。。只能找搞好的數據集了
10倍交叉驗證技術(K-fold Cross Validation)[14]來評估分類器的效能。即將訓練集劃分爲10 個相等並且沒有交集的子集,在每次訓練中將 1 個子集作爲測試集,剩餘的 9 個子集用作訓練集,最後以 10 次訓練結果平均值作爲檢測分類器最後的分類效能.
提取了 Android應用程式的 API呼叫資訊、申請許可權資訊、Source-Sink資訊爲特徵,這些資訊數量龐大,特徵維數高達三四萬維。爲消除冗餘特徵和減少分類器構建時間,提出了使用 L1與離散二進制粒子羣演算法(BPSO)進行混合式特徵選擇
樣本選擇實驗所用的惡意樣本從 virusshare 下載,良性樣本從 Google Play Store和小米應用市場下載。同時,爲確保良性樣本的絕對乾淨,將下載下來的良性樣本都上傳到 virustotal 掃描,選擇無危險的樣本爲最終良性樣本。最終是良性樣本和惡意樣本各449個
樣本建立要自己編譯
這三類資訊的具體提取過程爲:(1)使用「aapt dump permissions *.apk」命令獲取permission 資訊。(2)使用 backsmali 工具將.apk 檔案逆向成一個個smali 檔案,再掃描檔案中使用了「invoke-virtual」語句呼叫的API以獲取API資訊。(3)使用 flowdroid 獲取 source-sink 流,並用 python將其格式化。
感覺樣本建立要不少時間
爲啥英文論文只有個摘要看不見全文 下午再看了。
Android惡意軟體數據集
Android惡意軟體數據集。
剖析Android惡意軟體的出版物:表徵和演變。 周亞金,江旭賢。第33屆IEEE安全與隱私研討會(Oakland 2012)的會議記錄。2012年5月,加利福尼亞州舊金山
主頁(已停止共用數據集) http://www.malgenomeproject.org
出版物 Damshenas M,Dehghantanha A,Choo KKR等。M0droid:基於Android行爲的惡意軟體檢測模型[J]。資訊隱私與安全學報,2015,11(3):141-157。
主頁 http://cyberscientist.org/m0droid-dataset/
部落格 http://www.alid.info/blog/2015/2/4/android-malware-research-dataset
出版物 Arp D,Spreitzenbarth M,Hubner M等。Drebin:有效且可解釋地檢測您口袋中的android惡意軟體[C] //程式。NDSS第17屆網路和分佈式系統安全研討會。14。
主頁 http://user.informatik.uni-goettingen.de/~darp/drebin/
主頁 http://cgi.cs.indiana.edu/~nhusted/dokuwiki/doku.php?id=datasets
主頁 http://sanddroid.xjtu.edu.cn:8080/#home
出版物 CIDRE,EPI。Kharon數據集:顯微鏡下的Android惡意軟體。從權威性安全性實驗結果中學習(2016):1。
主頁 http://kharon.gforge.inria.fr/dataset/
Li Y,Jang J,Hu X等人的出版物。通過惡意有效負載挖掘 [C] //國際攻擊,入侵和防禦研究研討會,Android惡意軟體得以叢集。查爾斯·施普林格,湛,2017:192-214
魏芬,李Y,羅伊·S等。當前Android惡意軟體的深入研究 [C] //入侵和惡意軟體檢測以及漏洞評估國際會議。施普林格,湛,2017:252-276。
主頁 http://amd.arguslab.org
出版物 Arash Habibi Lashkari,Andi Fitriah A.Kadir,Hugo Gonzalez,Kenneth Fon Mbah和Ali A.Ghorbani致力於建立基於網路的Android惡意軟體檢測和特徵化框架,在第15屆隱私,安全和信任國際會議的進行中,太平洋標準時間,加拿大卡爾加裡,2017年。
主頁 http://www.unb.ca/cic/datasets/android-adware.html
該數據集包含10479個樣本,這些樣本是通過使用七種不同的混淆技術對MalGenome和Contagio Minidump數據集進行混淆獲得的。
出版物 Davide Maiorca,Davide Ariu,Igino Corona,Marco Aresu和Giorgio Giacinto。隱形攻擊:深入瞭解混淆對Android惡意軟體的影響。在計算機與安全,第一卷。51,第16-31頁,2015年。
主頁 http://pralab.diee.unica.it/en/AndroidPRAGuardDataset
出版物 K.Allix,TF Bissyande,J.Klein和Y.Le Traon。AndroZoo:爲研究社羣收集了數百萬個Android應用程式。採礦軟體儲存庫(MSR)2016。
主頁 https://androzoo.uni.lu/
做到不好寫的一條路了,安卓惡意軟體檢測沒有或者我找不到處理好的特徵數據集 現在要做就要下載apk檔案 反編譯然後提取特徵篩選 處理成能用的數據集 然後在訓練 。下載都成問題了。慢慢做