摘要:NumPy中包含大量的函數,這些函數的設計初衷是能更方便地使用,掌握解這些函數,可以提升自己的工作效率。這些函數包括陣列元素的選取和多項式運算等。下面通過範例進行詳細瞭解。
前述通過對某公司股票的收盤價的分析,瞭解了某些Numpy的一些函數。通常實際中,某公司的股價被另外一家公司的股價緊緊跟隨,它們可能是同領域的競爭對手,也可能是同一公司下的不同的子公司。可能因兩家公司經營的業務型別相同,面臨同樣的挑戰,需要相同的原料和資源,並且爭奪同型別的客戶。
實際中,有很多這樣的例子,如果要檢驗一下它們是否真的存在關聯。一種方法就是看看兩個公司股票收益率的相關性,強相關性意味著它們之間存在一定的關聯性(特別是當所用的資料不夠充足時,誤差可能更大)
一、股票相關性分析
1、匯出兩個相關的股票資料():
2、分別從CSV檔案中讀入相關資料
close = np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True) new_close = np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)
3、協方差描述的是兩個變數共同變化的趨勢,其實就是歸一化前的相關係數。使用 cov 函數計算股票收益率的協方差矩陣,完整程式碼如下:
import numpy as np from datetime import datetime import matplotlib.pyplot as plt def datestr2num(s): #定義一個函數 return datetime.strptime(s.decode('ascii'),"%Y-%m-%d").date().weekday() close=np.loadtxt('data036.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True) #匯入data036.csv資料
new_close=np.loadtxt('data999.csv',delimiter=',', usecols=(5,),converters={1:datestr2num},unpack=True)#匯入data999.csv資料
covariance = np.cov(close,new_close) #使用numpy.cov() 函數計算兩個數列的協方差矩陣
print(close.mean()) #求close的平均值
print(new_close.mean())#求new_close的平均值
print('covariance:','\n',covariance)
執行結果:
48.40690476190476 18.85157142857143 covariance: [[30.46934553 1.5201865 ] [ 1.5201865 8.96031113]]
1)用 diagonal 函數檢視矩陣對角線上的元素
print ("對角元素:", covariance.diagonal()) # diagonal檢視對角上的元素
執行結果:
對角元素: [30.46934553 8.96031113]
2)使用 trace 函數計算矩陣的跡,即對角線上元素之和
print("Covariance trace", covariance.trace()) #對角線上元素之和
3)兩個向量的相關係數被定義為協方差除以各自標準差的乘積。計算向量 a 和 b 的相關係數的公式:corr(a,b)=cov(a,b)/(std(a)*std(b))
covar = covariance/ (np.std(close) * np.std(new_close)) print("相關係數矩陣:", covar)
執行結果:
相關係數矩陣: [[1.84843969 0.09222295]
[0.09222295 0.54358223]]
注意:由於covariance是一個矩陣,因而得到的covar也是一個矩陣
相關係數是兩隻股票的相關程度。相關係數的取值範圍在 -1 到 1 之間。根據定義,一組數值與自身的相關係數等於 1 ,numpy中使用 corrcoef 函數計算相關係數
closecorr = np.corrcoef(close,new_close) print("相關係數:",'\n', closecorr )
執行結果:
相關係數: [[1. 0.09200338] [0.09200338 1. ]]
對角線上的元素即close和new_close與自身的相關係數,因此均為1。相關係數矩陣是關於對角線對稱的,因此另外兩個元素的值相等,表示close和new_close的相關係數等於new_close和close的相關係數。
判斷兩隻股票的價格走勢是否同步的要點是,它們的差值偏離了平均差值2倍於標準差的距離,則認為這兩隻股票走勢不同步。程式碼如下:
difference = close - new_close avg = np.mean(difference) dev = np.std(difference) print ("Out of sync:", np.abs(difference[-1]-avg)>2*dev)
執行結果:
Out of sync: False
二、多項式
微積分裡有泰勒展開,也就是用一個無窮級數來表示一個可微的函數。實際上,任何可微的(從而也是連續的)函數都可以用一個N次多項式來估計,而比N次冪更高階的部分為無窮小量可忽略不計。
NumPy中的 ployfit 函數可以用多項式去擬合一系列資料點,無論這些資料點是否來自連續函數都適用。
繼續使用close和new_close的股票價格資料。用一個三次多項式去擬合兩隻股票收盤價的差價。
t = np.arange(len(close)) #得到close數列的長度 poly = np.polyfit(t, close - new_close, 3) #利用長度t和兩隻股票的價差,生成一個三項式,三項式有3個係數和一個常數
print("Polynomial fit", poly)
執行結果:
Polynomial fit: [ 1.61308827e-07 -4.34114354e-04 1.84480028e-01 1.33680483e+01]
用我們剛剛得到的多項式物件以及 polyval 函數,推斷下一個差值:
print ("Next value:", np.polyval(poly, t[-1] + 1)) #用生成的多項式擬合求下一個差值
print(difference[-1]) #列印最後一個實際的差值
執行結果:
Next value: 26.222936287829654 26.21
在極限情況下,差值可以在某個點為0。使用 roots 函數找出擬合的多項式函數什麼時候到達0值:
print( "Roots", np.roots(poly))#root返回多項式的根
執行結果:
Roots [2138.21411788 615.9134063 -62.92728874]
三、求極值的知識
極值是函數的最大值或最小值。在高等代數微積分中,這些極值點位於函數的導數為0的位置,然後再求導數函數的根,即找出原多項式函數的極值點。
1)使用 polyder 函數對多項式函數求導
der = np.polyder(poly) print("Derivative", der)
2)求出導數函數的根,即找出原多項式函數的極值點
print( "Extremas", np.roots(der))
執行後即得到如下:
Derivative: [ 4.83926482e-07 -8.68228709e-04 1.84480028e-01]
Extremas [1547.84609151 246.28739879]
3)用 polyval 計算多項式函數的值,並用matplotlib顯示
vals = np.polyval(poly, t) print('vals:',vals) print('max value:', np.argmax(vals)) print('min value:', np.argmin(vals))
plt.plot(t,difference)
plt.plot(t,vals)
plt.show()
執行結果如下: