簡析XDP的重定向機制

2022-09-03 21:03:01
  • GreatSQL社群原創內容未經授權不得隨意使用,轉載請聯絡小編並註明來源。
  • GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。

一. XDP Socket範例解析

原始碼參見:https://github.com/xdp-project/xdp-tutorial/tree/master/advanced03-AF_XDP
該範例演示瞭如何通過BPF將網路封包從XDP Hook點旁路到使用者態的XDP Socket,解析過程中為突出重點,將只關注重點程式碼段,一些函數會被精簡,比如:錯誤處理等

二. BPF 程式 af_xdp_kern.c

BPF程式是執行在核心態的一段程式碼,如下:

struct bpf_map_def SEC("maps") xsks_map = {
    .type = BPF_MAP_TYPE_XSKMAP,
    .key_size = sizeof(int),
    .value_size = sizeof(int),
    .max_entries = 64,  /* Assume netdev has no more than 64 queues */
};

SEC("xdp_sock")
int xdp_sock_prog(struct xdp_md *ctx)
{
    int index = ctx->rx_queue_index;

    if (bpf_map_lookup_elem(&xsks_map, &index))
        return bpf_redirect_map(&xsks_map, index, 0);
    
    return XDP_PASS;
}
  1. struct bpf_map_def SEC("maps") xsks_map: 定義了一個BPF_MAP_TYPE_XSKMAP型別的對映表,當採用SEC("maps")方式來顯示定義時,將在生成的bpf目標檔案的ELF格式中看到相關描述,當BPF程式被載入到核心時,會自動建立名為「xsks_map」的描述符, 使用者態可通過查詢「xsks_map」來獲取該map的描述符,這樣使用者態和核心BPF程式就可以共同存取該map

  2. type = BPF_MAP_TYPE_XSKMAP:指定該map的型別,它與bpf_redirect_map() 結合使用以將收到的幀傳遞到指定通訊端

  3. key_size = sizeof(int),value_size = sizeof(int):指定key,value長度

  4. 針對以上key,value需要說明一下:對於BPF_MAP_TYPE_XSKMAP型別的map,value必須是XDP socket描述符,key必須是int型別,原因在於bpf_redirect_map()的第二個引數,參見下面2.10

  5. max_entries = 64:指定map最多儲存64個元素

  6. SEC("xdp_sock"):指定prog函數符號,應用層可通過查詢"xdp_sock"載入該prog,並繫結到指定網路卡

  7. int xdp_sock_prog(struct xdp_md *ctx):當網路卡收到封包時,會在xdp hook點呼叫該函數

  8. int index = ctx->rx_queue_index: 獲取該封包來自網路卡到哪個rx佇列ID,ctx有許多成員,比如:網路卡ID,資料框等等

  9. if (bpf_map_lookup_elem(&xsks_map, &index)): 判斷xsks_map是否存在key為index(即rx佇列號)的資料,注意,這裡實際上就是判斷該網路卡是否繫結了xdp Socket

    • bpf_redirect_map(&xsks_map, index, 0)bpf_redirect_map函數作用就是重定向,比如:將資料重定向到某個網路卡,CPU, Socket等等;當bpf_redirect_map函數的第一個引數的map型別為BPF_MAP_TYPE_XSKMAP時,則表示將資料重定向到XDP Scoket
    • bpf_redirect_map()會查詢引數1即xsks_map 中 key為index 的 value 是否存在,若存在,則檢查value是否是一個XDP Scoket,並且是否繫結到了該網路卡(可以繫結到任意有效佇列)

綜合以上,該bpf程式實現的功能就是:將收到的封包重定向到xsks_map中指定的XDP Socket

三. 使用者態程式 af_xdp_user.c

該程式實現bpf載入到網路卡,建立XDP Scoket並繫結到網路卡的指定佇列,並通過XDP Scoket收發資料,這裡僅分析xXDP Scoket相關部分

int main(int argc, char **argv)
{
    ...
    bpf_obj = load_bpf_and_xdp_attach(&cfg);
    map = bpf_object__find_map_by_name(bpf_obj, "xsks_map");
    ...
    xsks_map_fd = bpf_map__fd(map);
    ...
    umem = configure_xsk_umem(packet_buffer, packet_buffer_size);
    ...
    xsk_socket = xsk_configure_socket(&cfg, umem);
    ...
    rx_and_process(&cfg, xsk_socket);
    ...
}

static struct xsk_socket_info *xsk_configure_socket(struct config *cfg,
                            struct xsk_umem_info *umem)
{
    ...
    ret = xsk_socket__create(&xsk_info->xsk, cfg->ifname,
                 cfg->xsk_if_queue, umem->umem, &xsk_info->rx,
                 &xsk_info->tx, &xsk_cfg);
    ...
}
  • bpf_obj = load_bpf_and_xdp_attach(&cfg): 載入bpf程式,並繫結到網路卡
  • map = bpf_object__find_map_by_name(bpf_obj, "xsks_map"): 查詢bpf程式內定義的xsks_map
  • umem = configure_xsk_umem(packet_buffer, packet_buffer_size): 為XDP Scoket準備UMEM
  • xsk_configure_socket()通過呼叫bpf helper函數xsk_socket__create()建立XDP Scoket並繫結到cfg->ifname網路卡的cfg->xsk_if_queue佇列,預設情況下將該【cfg->xsk_if_queue, xsk_info->xsk fd】新增到xsks_map, 這樣bpf程式就可以重定向到該XDP Scoket(參見2.9, 2.10), 除非指定XSK_LIBBPF_FLAGS__INHIBIT_PROG_LOAD標誌
static void rx_and_process(struct config *cfg,
               struct xsk_socket_info *xsk_socket)
{
    struct pollfd fds[2];
    int ret, nfds = 1;

    memset(fds, 0, sizeof(fds));
    fds[0].fd = xsk_socket__fd(xsk_socket->xsk);
    fds[0].events = POLLIN;
    
    while(!global_exit) {
        if (cfg->xsk_poll_mode) {
            ret = poll(fds, nfds, -1);
            if (ret <= 0 || ret > 1)
                continue;
        }
        handle_receive_packets(xsk_socket);
    }
}
  • XDP Scoket也是一個檔案描述符,因此可以通過poll/epoll/select來等待IO事件,需要說明的是:收/發的封包是原始的乙太網幀,因此在包處理上要麻煩一些

四. 總結

  • 以上簡略分析了bpf程式如何將資料重定向到使用者態程式,通過xsks_map來實現bpf與使用者態程式的互動;
  • 需要說明的是,這些分析僅是梳理了淺層次的程式碼,實際上BPF是如何將資料讀寫到XDP Scoket收發緩衝區的呢?其實是通過建立共用記憶體並關聯XDP Scoket的rx_ring,tx_ring,以及umem來實現的,後續繼續分析
  • bpf程式通常都非常簡單,複雜的是使用者態程式,此外,BPF有非常多的技術細節,限於篇幅及主題不在此展開。

Enjoy GreatSQL