2020華為杯C題:面向康復工程的腦電訊號分析和判別模型

面向康復工程的腦電訊號分析和判別模型

背景和意義

大腦是人體中高階神經活動的中樞，擁有著數以億計的神經元，並通過相互連線來傳遞和處理人體資訊。腦電訊號按其產生的方式可分為誘發腦電訊號和自發腦電訊號。誘發腦電訊號是通過某種外界刺激使大腦產生電位變化從而形成的腦電活動；自發腦電訊號是指在沒有外界特殊刺激下，大腦自發產生的腦電活動。

（1）誘發腦電訊號（P300腦-機介面）

在日常生活中，人的大腦控制著感知、思維、運動及語言等功能，且以外圍神經為媒介向身體各部分發出指令。因此，當外圍神經受損或肌肉受損時，大腦發出指令的傳輸通路便會受阻，人體將無法正常完成大腦指令的輸出，也就失去了與外界交流和控制的能力。研究發現，在外圍神經失去作用的情況下，人的大腦依舊可以正常執行，而且其發出指令的部分資訊可以通過一些路徑表徵出來。腦-機介面技術旨在不依賴正常的由外圍神經或肌肉組織組成的輸出通路的通訊系統，實現大腦與外部輔助裝置之間的交流溝通。
P300事件相關電位是誘發腦電訊號的一種，在小概率刺激發生後300毫秒範圍左右出現的一個正向波峰（相對基線來說呈現向上趨勢的波）。由於個體間的差異性，P300的發生時間也有所不同，圖1表示的是在刺激發生後450毫秒左右的P300波形。P300電位作為一種內源性成分，它不受刺激物理特性影響，與知覺或認知心理活動有關，與注意、記憶、智慧等加工過程密切相關。基於P300的腦-機介面優點是使用者無需通過複雜訓練就可以獲得較高的識別準確率，具有穩定的鎖時性和高時間精度特性。

圖1 P300波形示意圖

（2）自發腦電訊號（睡眠腦電）

睡眠是身體休整積蓄能量的重要環節，睡眠品質對人的身心狀態也有著重大影響。如何提高睡眠品質，減少睡眠相關疾病對健康的影響，日益受到廣泛關注。睡眠過程中採集的腦電訊號，屬於自發型的腦電訊號。自發型的睡眠腦電訊號能夠反映身體狀態的自身變化，也是用來診斷和治療相關疾病的重要依據。
睡眠過程是一個動態變化的複雜過程。在國際睡眠分期的判讀標準R&K中，對睡眠過程中的不同狀態給出了劃分：除去清醒期以外，睡眠週期是由兩種睡眠狀態交替迴圈，分別是非快速眼動期和快速眼動期；在非快速眼動期中，根據睡眠狀態由淺入深的逐步變化，又進一步分為睡眠I期，睡眠II期，睡眠III期和睡眠IV期；睡眠III期和睡眠IV期又可合併為深睡眠期。圖2給出了不同睡眠分期對應的腦電訊號時序列，自上而下依次為清醒期、睡眠I期、睡眠II期、深睡眠和快速眼動期。從圖2中可以觀察到，腦電訊號在不同睡眠分期所呈現的特點有所不同。基於腦電訊號進行自動分期，能夠減輕專家醫師的人工負擔，也是評估睡眠品質、診斷和治療睡眠相關疾病的重要輔助工具。

(a) 清醒期

(b) 睡眠I期

(d) 深睡眠期

(e) 快速眼動期
圖2 各睡眠分期的睡眠腦電訊號時序列

課題任務

本賽題包含2個附件（資料檔案），四個課題任務。具體說明如下，
附件1：P300腦機介面實驗資料
提供了5個健康成年被試（S1-S5）的P300腦機介面實驗資料，平均年齡為20歲。在實驗的過程中，要求每一位被試（被測試者）集中注意力。P300腦機介面實驗的設計如下：每位被試能夠觀察到一個由36個字元組成的字元矩陣，如圖3所示，字元矩陣以行或列為單位（共6行6列）。每輪實驗的設計流程：首先，提示被試注視「目標字元」，例如在圖3的字元矩陣上方，出現的灰色字元「A」；其次，進入字元矩陣的閃爍模式，每次以隨機的順序閃爍字元矩陣的一行或一列，閃爍時長為80毫秒，間隔為80毫秒；最後，當所有行和列均閃爍一次後，則結束一輪實驗。在被試注視「目標字元」的過程中，當目標字元所在行或列閃爍時，腦電訊號中會出現P300電位；而當其他行和列閃爍時，則不會出現P300電位。上述實驗流程為1輪，共重複5輪。

圖3 字元矩陣介面

每位被試的P300腦電資料包含有4個檔案，具體說明如下，
train_data：訓練用資料；
train_event：訓練資料的事件標籤；
test_data：測試用資料；
test_event：測試資料的事件標籤。
訓練用資料包括12個已知目標字元的資料（char01_{char12），測試用資料包括10個待識別目標字元的資料（char13}char22）。每個字元矩陣閃爍實驗中，腦電資料表格包含有20列（每列表示1個記錄通道，記錄通道依次進行編號，表1為記錄通道的識別符號，圖5對應了記錄通道的位置），腦電資料表格的行表示樣本點資料，取樣頻率為250Hz。訊號採集裝置設定了參考電極和接地電極，即記錄通道的訊號為作用電極與參考電極之間的差值。

表1採集通道的識別符號
識別符號通道
名稱識別符號通道
名稱
1 Fz 11 CP5
2 F3 12 CP6
3 F4 13 Pz
4 Cz 14 P3
5 C3 15 P4
6 C4 16 P7
7 T7 17 P8
8 T8 18 Oz
9 CP3 19 O1
10 CP4 20 O2

圖5 腦電訊號採集通道圖
訓練資料中的標籤檔案同樣是以子表形式與實驗資料相對應，子表的名稱為「charXX(Y)」，XX對應相應字元的序列號，Y表示實際的目標字元。子表的內容包含了兩列，第一列表示標籤，第二列為取樣點序號。每輪實驗的起始標籤為目標字元對應的識別符號（字元矩陣中36個字元的識別符號詳見表2，如「101」表示「A」），接下來為閃爍的行或列的識別符號（詳見圖6，如「2」表示第2行，「9」表示第3列），一輪實驗的結束標籤為「100」。在訓練資料的事件標籤檔案中，第一行給出了目標字元的識別符號和對應的取樣點序號，接下來是隨機閃爍的行和列的識別符號和對應的取樣點序號，每輪實驗以「100」識別符號結束，共重複5次；
測試資料中的標籤檔案同樣是以子表形式與實驗資料相對應，子表的名稱為「charXX」，XX對應相應字元的序列號。在測試資料的事件標籤檔案中，第一行給出了待識別目標字元的識別符號，統一表示為「666」，需要通過對腦電訊號進行分析後，得到出現P300電位的行和列，並判斷得到目標字元的識別結果。
表2 字元矩陣的識別符號
A 101 B 102 C 103 D 104 E 105 F 106
G 107 H 108 I 109 J 110 K 111 L 112
M 113 N 114 O 115 P 116 Q 117 R 118
S 119 T 120 U 121 V 122 W 123 X 124
Y 125 Z 126 1 127 2 128 3 129 4 130
5 131 6 132 7 133 8 134 9 135 0 136

圖6行/列的識別符號
附件2：睡眠腦電資料
提供3000個睡眠腦電特徵樣本及其標籤，取自不同的健康成年人整夜睡眠過程。第一列為「已知標籤」，用數位形式來表示不同的睡眠分期：清醒期（6），快速眼動期（5），睡眠I期（4），睡眠II期（3），深睡眠期（2）；第二至五列為從原始時序列中計算得到的特徵引數，依次包括「Alpha」，「Beta」，「Theta」，「Delta」，分別對應了腦電訊號在「8-13Hz」，「14-25Hz」，「4-7Hz」和「0.5-4Hz」頻率範圍內的能量佔比，特徵引數單位為百分比。
根據以上附件所給出的資料來源和實驗資料，請研究以下問題：
問題一：在腦-機介面系統中既要考慮目標的分類準確率，同時又要保證一定的資訊傳輸速率。請根據附件1所給資料，設計或採用一個方法，在儘可能使用較少輪次（要求輪次數小於等於5）的測試資料的情況下，找出附件1中5個被試測試集中的10個待識別目標，並給出具體的分類識別過程，可與幾種方法進行對比，來說明設計方法的合理性。
問題二：由於採集的原始腦電資料量較大，這樣的訊號勢必包含較多的冗餘資訊。根據圖5和表1，在20個腦電訊號採集通道中，無關或冗餘的通道資料不僅會增加系統的複雜度，且影響分類識別的準確率和效能。請分析附件1所給資料，並設計一個通道選擇演演算法，給出針對每個被試的、更有利於分類的通道名稱組合（要求通道組合的數量小於20大於等於10，每個被試所選的通道可以不相同，具體的通道名稱見圖5和表1）。基於通道選擇的結果，進一步分析對於所有被試都較適用的一組最優通道名稱組合，並給出具體分析過程。為了方便參賽者對最優通道組合進行選擇，賽題給出了測試資料（char13-char17）的結果，它們的字元分別是：M、F、5、2、I。
問題三：在P300腦-機介面系統中，往往需要花費很長時間獲取有標籤樣本來訓練模型。為了減少訓練時間，請根據附件1所給資料，選擇適量的樣本作為有標籤樣本，其餘訓練樣本作為無標籤樣本，在問題二所得一組最優通道組合的基礎上，設計一種學習的方法，並利用問題二的測試資料（char13-char17）檢驗方法的有效性，同時利用所設計的學習方法找出測試集中的其餘待識別目標（char18-char22）。
問題四：根據附件2中所給出的特徵樣本，請設計一個睡眠分期預測模型，在儘可能少的訓練樣本的基礎上，得到相對較高的預測準確率，給出訓練資料和測試資料的選取方式和分配比例，說明具體的分類識別過程，並結合分類效能指標對預測的效果進行分析。

思路分析

今年題目簡單
這題無非是, 分類, 關聯分析, 迴歸問題
逐個解決即可, 有些問題其實這幾年的paper已經給出解決方法了
需要的留言
在這裡插入圖片描述