一鍵自動化資料分析!快來看看這些寶藏工具庫

2022-07-12 18:01:33

實際工作中,我們往往依託於業務資料分析制定業務策略。這個過程需要頻繁地進行資料分析和挖掘,發現模式規律。對於演演算法工程師而言,一個有效的 AI 演算法系統落地,不僅僅是模型這麼簡單——資料才是最底層的驅動。

典型的『機器學習工作流程』包含 6 個關鍵步驟,其中『探索性資料分析(Exploratory Data Analysis, EDA) 』是至關重要的一步。

  • 定義問題
  • 資料採集和 ETL
  • 探索性資料分析
  • 資料準備
  • 建模(模型訓練和選擇)
  • 部署和監控

Wiki: In statistics, exploratory data analysis is an approach of analyzing data sets to summarize their main characteristics, often using statistical graphics and other data visualization methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling and thereby contrasts traditional hypothesis testing.

探索性資料分析,通常使用統計圖形等資料視覺化方法,探索資料的結構和規律,總結資料主要特徵的方法。這一過程通常包含細碎的處理步驟和分析操作。

探索性資料分析 EDA 的常用工具

優秀的工具可以簡化上述過程!甚至可以一鍵生成分析報告。本篇 ShowMeAI 給大家總結了截至 2022年 最受歡迎的探索式資料分析工具庫,快一起試起來吧!

通常,我們有以下 3 種方式進行 EDA:

  • 方式1:在 Python/R 中使用庫/框架手動分析
  • 方式2:在 Python/R 中使用自動化 EDA 庫
  • 方式3:使用 Microsoft Power BI 或 Tableau 等工具

3種方式對應的最佳工具庫我們梳理到下文中了,對自動化資料分析感興趣的同學可以直接跳至『自動化EDA工具庫』板塊。

方式1:手動分析工具庫