Support Vector Machines(SVM)是由分離超平面正式定義的鑑別分類器。
如何計算最佳超平面?
我們來介紹用於定義超平面的符號:
SVM簡介
其中β被稱爲權重向量,而β0稱爲偏差。
也可以看看
這和超平面更深入的描述,你可以在4.5節(發現分隔條件超平面書的):統計學習的要素通過 T. Hastie, R. Tibshirani和JH Friedman([172])。
通過縮放β和可以以無限數量的不同方式表示最優超平面β0。作爲慣例,在超平面的所有可能的表示中,選擇的是
SVM
其中X表示最接近超平面的訓練樣本。通常,最接近超平面的訓練樣本稱爲支援向量。這種表示被稱爲規範超平面。
現在,我們使用幾何的結果給出點X和超平面之間的距離(β,β0):
SVM
特別地,對於規範超平面,分子等於1,並且到支援向量的距離爲
SVM
回想一下,上一節中介紹的the margin(這裏表示爲M)是距離最接近的例子的兩倍:
SVM簡介
最後,m最大化問題等價於一個函數L(β)在某些約束條件下的極小化問題。約束模型對超平面的要求正確分類所有訓練樣本。從形式上看,
SVM簡介
其中yi 表示訓練樣本的每個標籤。
這是拉格朗日優化的問題,可以使用拉格朗日乘數來求解最優超平面的權重向量β和偏置β0。
// Data for visual representation
int width = 512, height = 512;
Mat image = Mat::zeros(height, width, CV_8UC3);
// Set up training data
int labels[4] = {-1, 1, -1, -1};
float trainingData[4][2] = { {501, 10}, {255, 10}, {501, 255}, {10, 501} };
Mat trainingDataMat(4, 2, CV_32FC1, trainingData);
Mat labelsMat(4, 1, CV_32SC1, labels);
// Train the SVM
Ptr<SVM> svm = SVM::create();
svm->setType(SVM::C_SVC);
svm->setKernel(SVM::LINEAR);
svm->setTermCriteria(TermCriteria(TermCriteria::MAX_ITER, 100, 1e-6));
svm->train(trainingDataMat, ROW_SAMPLE, labelsMat);
// Show the decision regions given by the SVM
Vec3b green(0,255,0), mRed (255, 0, 0);
for (int i = 0; i < image.rows; ++i)
for (int j = 0; j < image.cols; ++j)
{
Mat sampleMat = (Mat_<float>(1,2) << j,i);//訓練數據座標
float response = svm->predict(sampleMat);
if (response == 1)
image.at<Vec3b>(i,j) = green;
else if (response == -1)
image.at<Vec3b>(i,j) = mRed;
}
// Show the training data
int thickness = -1;
int lineType = 8;
circle( image, Point(501, 10), 5, Scalar( 0, 0, 0), thickness, lineType );
circle( image, Point(255, 10), 5, Scalar(255, 255, 255), thickness, lineType );
circle( image, Point(501, 255), 5, Scalar(255, 255, 255), thickness, lineType );
circle( image, Point( 10, 501), 5, Scalar(255, 255, 255), thickness, lineType );
// Show support vectors
thickness = 2;
lineType = 8;
Mat sv = svm->getUncompressedSupportVectors();
LOGI("jason %d", sv.rows);
for (int i = 0; i < sv.rows; ++i)
{
const float* v = sv.ptr<float>(i);
circle( image, Point( (int) v[0], (int) v[1]), 6, Scalar(128, 128, 128), thickness, lineType);
}