隨著我國的機動車數量不斷增長,人均保有量也隨之增加,機動車以「二手車」形式在流通環節,包括二手車收車、二手車拍賣、二手車零售、二手車置換等環節的流通需求越來越大。二手車作為一種特殊的「電商商品」,因為其「一車一況」的特性比一般電商商品的交易要複雜得多,究其原因是二手車價格難於準確估計和設定,不但受到車本身基礎設定,如品牌、車系、動力等的影響,還受到車況如行駛里程、車身受損和維修情況等的影響,甚至新車價格的變化也會對二手 車價格帶來作用。目前國家並沒有出臺一個評判二手車資產價值的標準。一些二手車交易平臺和二手車第三方估價平臺都從自身的角度建立了一系列估價方法用於評估二手車資產的價值。
在一個典型的二手車零售場景,二手車一般通過網際網路等線上渠 道獲取使用者線索,線下實體門店對外展銷和售賣,俗稱 O2O 門店模式。門店通過「買手」從個人或其他渠道收購二手車,然後由門店定價師定價銷售,二手車商品和其他商品一樣,如果定價太高滯銷也會打 折促銷,甚至直接以較低的價格打包批發,直至商品最終賣出。
基於以上背景,請你們團隊根據附件給出的資料,通過資料分析與建模的方法幫助二手車交易平臺解決下面的問題:
初賽問題
問題 1:基於給定的二手車交易樣本資料(附件 1:估價訓練資料),選用合適的估價方法,構建模型,預測二手車的零售交易價格,資料中會對 id 類,主要特徵類等資訊進行脫敏。主要資料包括車輛基礎資訊、交易時間資訊、價格資訊等,包含 36 列變數資訊,其中15 列為匿名變數。
問題 2:在門店模式中,車輛在被「買手」收車以後,會進入門店進行售賣,車輛能否成功交易,除了取決於銷售的談判技巧,更重要的是車輛本身是否受消費者青睞,價格是否公道。假設你們是門店的定價師,請你們結合附件 4「門店交易訓練資料」對車輛的成交週期(從車輛上架到成交的時間長度,單位:天)進行分析,挖掘影響車輛成交週期的關鍵因素。假如需要加快門店在庫車輛的銷售速度,你們可以結合這些關鍵因素採取哪些行之有效的手段,並進一步說明這些手段的適用條件和預期效果。
問題 3:依據給出的樣本資料集,你們覺得還有哪些問題值得研究,並給出你們的思路?
將問題 1、2、3 的解決過程寫成一篇論文,明確你們的思路、模型、方法和結果。
上次我們是拿python做的資料處理與資料分析,這次我們使用資料庫對資料進行處理及分析:
首先將原資料變為csv或是excel資料然後倒入資料庫中,如下圖所示:
匯入成功之後,接下來進行資料處理,對於空值及特殊欄位
我們可以看到,所有欄位均非空的資料寥寥無幾,佔比很少(原資料總數為30000而均非空數目只有271條),因此不能直接剔除含空資料的車輛資料,那如何處理這個二手車部分欄位空值資料呢?
此處資料處理應根據實際情況給出二手車交易過程中題中所給影響因素佔比權重,然後再根據不同權重下的變數將不同空值下的資料進行分類儲存,為後面做資料分析作鋪墊。
例如:里程、過戶次數、載客人數、上牌日期、年款等等這些都是影響二手車交易價的重要指標,如何合理的分配這些影響因素的佔比是你鑑於實際背景查閱相關資料所要深入研究的。
合理分配完權重之後,按照空值缺失欄位影響佔比超過30%的變數進行分類(空與非空),根據該題目一中要求,這顯然是一個基於迴歸的機器學習問題,因此為了能夠達到較好的預測效果及題中所要求的精確率,必須將特殊欄位進行數值化處理(都是什麼欄位怎麼處理呢?嘿嘿我不告訴你,想要就看最下方,此處用到了substring函數分割擷取以及分類變數轉化增廣矩陣)。
資料處理之後,我們也對資料全域性有個大概的掌握,現在就是細化分析,根據你設計的權重大的變數進行單因素因子分析,怎麼分析,如下圖所示:
要想單因子首先看是否存在同一品牌id同一車系id下存在不同車型id,題中給的資料還是比較良心的啊,沒有這樣的資料,這個務必說明驗證一下,接下來繼續資料分析
大的方向找到了之後,接下來扣更細的點,我這裡之前未將空與非空拆分,你們一定要拆分呦,進行必要的資料計算分析的過程之後,就是最重要的一步對已有訓練資料進行構建迴歸模型訓練了,至於採用什麼迴歸模型(我還是不告訴你,哈哈哈哈哈),有需要程式及數學模型的見下方。
友情提示一下,一定要將平均相對誤差低於5%,別怪我沒有提醒哦。
return:博主qq2534659467