安卓惡意軟體檢測 - tw511教學網

找數據集發現了安卓惡意軟體檢測這個方向
就找到了看了下也不是很新但是近幾年發文章的人挺多就這個了反正也找不到我寫啥

在这里插入图片描述
這是幾個安卓惡意軟體數據集

入手

先看幾篇中文論文別人怎麼做的
在这里插入图片描述
前兩章講惡意軟體問題啥的先不管；

第三章寫惡意軟體數據集一類是惡意樣本共用網站二類是具有家族資訊的常用數據集這些數據集幹嘛的有點不懂分類太多了跟我論文相關的數據集應該是包含特徵值和標籤的數據集這樣適合隨機森林機器學習。

第四章基於特徵碼的惡意軟體檢測基於特徵碼的惡意軟體檢測方法基本原理是利用每個軟體特有的特徵資訊進行匹配, 即在已知惡意軟體指定特徵碼的情況下, 通過與目標待檢測軟體的特徵碼進行匹配, 如果在已有的惡意軟體特徵碼數據庫中找到相同的特徵碼則將目標軟體判定爲惡意軟體, 否則爲良性軟體.

第五章基於機器學習的惡意軟體檢測基於機器學習的惡意軟體檢測方法的基本原理是通過程式分析等技術提取不同的特徵描述待分析樣本的不同行爲, 然後每一個樣本均用一個固定維度向量表示, 最後藉助於現有的機器學習演算法對已知標籤的樣本進行訓練並構建分類器, 從而能夠對未知樣本進行預測判斷
特徵選擇的方法 1是使用app使用的許可權 2是它使用的api介面作爲介面；除了經典的許可權以及 API 特徵之外, 許多研究工作 [15,71∼75] 發現 Android 的相關 Intent、字串以及元件也可以作爲惡意軟體的有效特徵都可以作爲特徵
另一個方向數據指的是與 app 應用程式本身程式碼無關的額外描述資訊, 例如該 app 的下載量、功能描述、類別資訊等. 該類資訊可以從另外一個新的角度對現有的特徵進行完善, 從而提升檢測效果.
第六章基於行爲的檢測方法下一篇

在这里插入图片描述
怎麼感覺這個文章很水。。。
好像是用許可權作爲特徵訓練樣本 500左右太少了

Android malware detection based on image-based features and machine learning techniques 基於影象特徵和機器學習技術的安卓惡意軟體檢測

本文提出了一種基於惡意代碼分類的安卓系統惡意代碼檢測模型。該模型基於將 Android 應用程式原始檔轉換爲灰度影象。從已構建的灰度影象數據集中提取了一些基於影象的區域性特徵和全域性特徵，包括4種不同類型的區域性特徵和3種不同類型的全域性特徵，並用於訓練模型。據我們所知，這種型別的特性首次用於 Android 惡意軟體檢測領域。此外，利用視覺詞語袋演算法從每幅影象的區域性特徵描述子中構造出一個特徵向量。這個 extracted local and global features have been used for training multiple machine learning classifiers including Random forest, k-nearest neighbors, Decision Tree, Bagging, AdaBoost and Gradient Boost. The proposed method obtained a very high classification accuracy reached 98.75% with a typical computational time does not exceed 0.018 s for each sample. The results of the proposed model outperformed the results of all compared state-of-art models in term of both classification accuracy and computational time. 提取的區域性和全域性特徵用於訓練多機器學習分類器，包括隨機森林、 k- 最近鄰、決策樹、 Bagging、 AdaBoost 和梯度 Boost。該方法分類準確率達到98.75% ，每個樣本的計算時間不超過0.018秒。該模型的分類精度和計算時間均優於現有模型的分類精度和計算時間
用影象直接學習可惜我沒學影象處理要不然就用了
在这里插入图片描述
選取 Android 應用的許可權、四大元件、API 呼叫以及程式的關鍵資訊如動態程式碼、反射程式碼、本機程式碼、密碼程式碼和應用程式數據庫等屬性特徵，對特徵屬性進行優化選擇，並生成對應的特徵向量集合
重點特徵選擇

這個論文自己做數據集和反編譯找特徵，這我都不會安卓咋搞數據集。。。只能找搞好的數據集了

10倍交叉驗證技術（K-fold Cross Validation）[14]來評估分類器的效能。即將訓練集劃分爲10 個相等並且沒有交集的子集，在每次訓練中將 1 個子集作爲測試集，剩餘的 9 個子集用作訓練集，最後以 10 次訓練結果平均值作爲檢測分類器最後的分類效能.

在这里插入图片描述
提取了 Android應用程式的 API呼叫資訊、申請許可權資訊、Source-Sink資訊爲特徵，這些資訊數量龐大，特徵維數高達三四萬維。爲消除冗餘特徵和減少分類器構建時間，提出了使用 L1與離散二進制粒子羣演算法（BPSO）進行混合式特徵選擇
樣本選擇實驗所用的惡意樣本從 virusshare 下載，良性樣本從 Google Play Store和小米應用市場下載。同時，爲確保良性樣本的絕對乾淨，將下載下來的良性樣本都上傳到 virustotal 掃描，選擇無危險的樣本爲最終良性樣本。最終是良性樣本和惡意樣本各449個
樣本建立要自己編譯
這三類資訊的具體提取過程爲：（1）使用「aapt dump permissions *.apk」命令獲取permission 資訊。（2）使用 backsmali 工具將.apk 檔案逆向成一個個smali 檔案，再掃描檔案中使用了「invoke-virtual」語句呼叫的API以獲取API資訊。（3）使用 flowdroid 獲取 source-sink 流，並用 python將其格式化。
感覺樣本建立要不少時間
爲啥英文論文只有個摘要看不見全文下午再看了。

Android惡意軟體數據集
Android惡意軟體數據集。

Android惡意軟體基因組計劃
在此專案中，我們專注於Android平臺，旨在對現有的Android惡意軟體進行系統化或特徵化。特別是，經過一年多的努力，我們已經成功收集了1200多個惡意軟體樣本，涵蓋了大多數現有的Android惡意軟體家族，從2010年8月首次亮相到2011年10月纔出現。

剖析Android惡意軟體的出版物：表徵和演變。周亞金，江旭賢。第33屆IEEE安全與隱私研討會（Oakland 2012）的會議記錄。2012年5月，加利福尼亞州舊金山

主頁（已停止共用數據集） http://www.malgenomeproject.org

M0Droid數據集
M0Droid基本上是android應用程式行爲模式識別工具，用於識別android惡意軟體並根據其行爲對其進行分類。它利用內核級掛鉤來捕獲應用程式的所有系統呼叫請求，然後爲應用程式的行爲生成簽名。

出版物 Damshenas M，Dehghantanha A，Choo KKR等。M0droid：基於Android行爲的惡意軟體檢測模型[J]。資訊隱私與安全學報，2015，11（3）：141-157。

主頁 http://cyberscientist.org/m0droid-dataset/

部落格 http://www.alid.info/blog/2015/2/4/android-malware-research-dataset

Drebin數據集
數據集包含來自179個不同惡意軟體家族的5,560個應用程式。這些樣本已在2010年8月至2012年10月期間收集，並由MobileSandbox專案提供給我們。您可以在論文中找到有關數據集的更多詳細資訊。

出版物 Arp D，Spreitzenbarth M，Hubner M等。Drebin：有效且可解釋地檢測您口袋中的android惡意軟體[C] //程式。NDSS第17屆網路和分佈式系統安全研討會。14。

主頁 http://user.informatik.uni-goettingen.de/~darp/drebin/

基於ContagioDump的數據集
數據集是在野外看到的基於Android的惡意軟體的集合。該惡意軟體片段於2011年10月26日下載。樣本中包含的惡意軟體總數爲189。我已根據可用的主要行爲將它們定性地分爲幾類。我從各種反病毒公司的惡意軟體報告中獲得了它們的主要行爲，如果該惡意軟體將下載單獨的有效負載作爲其主要功能，則將其歸爲Trojan類別。如果惡意軟體執行了特權升級攻擊，則它屬於特權升級類別。如果惡意軟體主要是從手機中竊取數據，則被歸類爲資訊竊取。如果該惡意軟體發送了高階SMS訊息，則說明它是一種高階SMS傳輸了惡意軟體。

主頁 http://cgi.cs.indiana.edu/~nhusted/dokuwiki/doku.php?id=datasets

AndroMalShare
AndroMalShare是一個致力於共用Android惡意軟體樣本的專案。它僅用於研究，不能用於商業用途。我們提供樣本的統計資訊，SandDroid掃描的每個惡意軟體樣本的詳細報告以及反病毒產品的檢測結果。您可以上傳惡意軟體樣本以與他人共用，並且每個惡意軟體樣本都可以下載（僅註冊使用者）！

主頁 http://sanddroid.xjtu.edu.cn:8080/#home

Kharon惡意軟體數據集
Kharon數據集是完全顛倒並記錄下來的惡意軟體的集合。構造該數據集是爲了幫助我們評估研究實驗。它的構造需要大量的工作來理解惡意代碼，觸發它，然後構造文件。該數據集現已可用於研究目的，我們希望它將幫助您進行自己的實驗。

出版物 CIDRE，EPI。Kharon數據集：顯微鏡下的Android惡意軟體。從權威性安全性實驗結果中學習（2016）：1。

主頁 http://kharon.gforge.inria.fr/dataset/

AMD專案
從2010年到2016年，AMD包含24,553個樣本，分爲71個惡意軟體家族中的135個類別。該數據集提供了有關Android惡意軟體當前現狀的最新圖片，並與社羣公開共用。

Li Y，Jang J，Hu X等人的出版物。通過惡意有效負載挖掘 [C] //國際攻擊，入侵和防禦研究研討會，Android惡意軟體得以叢集。查爾斯·施普林格，湛，2017：192-214

魏芬，李Y，羅伊·S等。當前Android惡意軟體的深入研究 [C] //入侵和惡意軟體檢測以及漏洞評估國際會議。施普林格，湛，2017：252-276。

主頁 http://amd.arguslab.org

AAGM數據集
通過在半自動化的真實智慧手機上安裝Android應用程式來捕獲AAGM數據集。該數據集由1900個應用程式生成。

出版物 Arash Habibi Lashkari，Andi Fitriah A.Kadir，Hugo Gonzalez，Kenneth Fon Mbah和Ali A.Ghorbani致力於建立基於網路的Android惡意軟體檢測和特徵化框架，在第15屆隱私，安全和信任國際會議的進行中，太平洋標準時間，加拿大卡爾加裡，2017年。

主頁 http://www.unb.ca/cic/datasets/android-adware.html

Android PRAGuard數據集
由於出於研究目的而檢索惡意軟體是一項艱鉅的任務，因此，我們決定發佈混淆的惡意軟體數據集。

該數據集包含10479個樣本，這些樣本是通過使用七種不同的混淆技術對MalGenome和Contagio Minidump數據集進行混淆獲得的。

出版物 Davide Maiorca，Davide Ariu，Igino Corona，Marco Aresu和Giorgio Giacinto。隱形攻擊：深入瞭解混淆對Android惡意軟體的影響。在計算機與安全，第一卷。51，第16-31頁，2015年。

主頁 http://pralab.diee.unica.it/en/AndroidPRAGuardDataset

AndroZoo
AndroZoo是一個不斷增長的Android應用程式集合，它從包括官方Google Play應用程式市場在內的多個來源收集來的數據，目前包含5,781,781個不同的APK，數十種不同的AntiVirus產品已經（或將要對其進行分析）以瞭解哪些應用程式被檢測爲惡意軟體。我們提供此數據集有助於正在進行的研究工作，並在Android Apps上啓用新的潛在研究主題。通過將數據集發佈給研究社羣，我們還旨在鼓勵我們的研究人員進行可重複的實驗。

出版物 K.Allix，TF Bissyande，J.Klein和Y.Le Traon。AndroZoo：爲研究社羣收集了數百萬個Android應用程式。採礦軟體儲存庫（MSR）2016。

主頁 https://androzoo.uni.lu/

做到不好寫的一條路了，安卓惡意軟體檢測沒有或者我找不到處理好的特徵數據集現在要做就要下載apk檔案反編譯然後提取特徵篩選處理成能用的數據集然後在訓練。下載都成問題了。慢慢做