VTM10.0程式碼學習2:NALU的解碼

2020-10-20 11:01:10

此係列是為了記錄自己學習VTM10.0的過程和鍛鍊表達能力,主要是從解碼端進行入手。由於本人水平有限,出現的錯誤懇請大家指正,歡迎與大家一起交流進步。


1. m_cDecLib.decode

接著本系列的上一篇部落格繼續講,之前的2.1.1小節講到函數m_cDecLib.decode是呼叫解碼器類進行NALU解碼。NALU分兩大類VCL和non-VCL型別,這兩種型別下面又有很多細分,相應的解碼也要把不同型別的NALU分開解碼。

  bool ret;
  // ignore all NAL units of layers > 0

  //將NALU的頭資訊存入順序容器
  AccessUnitInfo auInfo;
  auInfo.m_nalUnitType = nalu.m_nalUnitType;
  auInfo.m_nuhLayerId = nalu.m_nuhLayerId;
  auInfo.m_temporalId = nalu.m_temporalId;
  m_accessUnitNals.push_back(auInfo);
  m_pictureUnitNals.push_back( nalu.m_nalUnitType );

  switch (nalu.m_nalUnitType)//根據NALU的型別分別解碼
  {
    case NAL_UNIT_VPS:
      xDecodeVPS( nalu );//解碼VPS 參考JVET-S2001 7.3.2.3 P83
      m_vps->m_targetOlsIdx = iTargetOlsIdx;//設定m_vps的目標輸出層集的索引
      return false;
    case NAL_UNIT_DCI:
      xDecodeDCI( nalu );//解碼DCI 參考JVET-S2001 7.3.2.1 P83
      return false;
    case NAL_UNIT_SPS:
      xDecodeSPS( nalu );//解碼SPS 參考JVET-S2001 7.3.2.4 P86
      return false;

    case NAL_UNIT_PPS:
      xDecodePPS( nalu );//解碼PPS 參考JVET-S2001 7.3.2.5 P91
      return false;

    case NAL_UNIT_PH:
      xDecodePicHeader(nalu);//解碼picture header,如果解碼過程處於一幀中的第一個slice,那麼返回false。參考JVET-S2001 7.3.2.7 P95
      return !m_bFirstSliceInPicture;

    case NAL_UNIT_PREFIX_APS:
    case NAL_UNIT_SUFFIX_APS:
      xDecodeAPS(nalu);//解碼APS 參考JVET-S2001 7.3.2.6 P94
      return false;

    case NAL_UNIT_CODED_SLICE_TRAIL:
    case NAL_UNIT_CODED_SLICE_STSA:
    case NAL_UNIT_CODED_SLICE_IDR_W_RADL:
    case NAL_UNIT_CODED_SLICE_IDR_N_LP:
    case NAL_UNIT_CODED_SLICE_CRA:
    case NAL_UNIT_CODED_SLICE_GDR:
    case NAL_UNIT_CODED_SLICE_RADL:
    case NAL_UNIT_CODED_SLICE_RASL:
      ret = xDecodeSlice(nalu, iSkipFrame, iPOCLastDisplay);//解碼VCL型別的NALU 參考JVET-S2001 7.3.2.14 P99
      return ret;

    case NAL_UNIT_EOS://遇到EOS,重置解碼器類中的一些屬性
      m_associatedIRAPType[nalu.m_nuhLayerId] = NAL_UNIT_INVALID;
      m_pocCRA[nalu.m_nuhLayerId] = MAX_INT;
      m_prevGDRInSameLayerPOC[nalu.m_nuhLayerId] = MAX_INT;
      std::fill_n(m_prevGDRSubpicPOC[nalu.m_nuhLayerId], MAX_NUM_SUB_PICS, MAX_INT);
      memset(m_prevIRAPSubpicPOC[nalu.m_nuhLayerId], 0, sizeof(int)*MAX_NUM_SUB_PICS);
      memset(m_prevIRAPSubpicDecOrderNo[nalu.m_nuhLayerId], 0, sizeof(int)*MAX_NUM_SUB_PICS);
      std::fill_n(m_prevIRAPSubpicType[nalu.m_nuhLayerId], MAX_NUM_SUB_PICS, NAL_UNIT_INVALID);
      m_pocRandomAccess = MAX_INT;
      m_prevLayerID = MAX_INT;
      m_prevPOC = MAX_INT;
      m_prevSliceSkipped = false;
      m_skippedPOC = 0;
      m_accessUnitEos[nalu.m_nuhLayerId] = true;
#if JVET_S0155_EOS_NALU_CHECK
      m_prevEOS[nalu.m_nuhLayerId] = true;
#endif
      return false;

    case NAL_UNIT_ACCESS_UNIT_DELIMITER://遇到AU分隔符
      {
        AUDReader audReader;
        uint32_t picType;//參考JVET-S2001 aud_pic_type P179
        audReader.parseAccessUnitDelimiter(&(nalu.getBitstream()), m_audIrapOrGdrAuFlag, picType);//參考JVET-S2001 7.3.2.10 P53
        return !m_bFirstSliceInPicture;
      }

    case NAL_UNIT_EOB://遇到EOB(end of bitstream)
      return false;
          
    //......
  }

上面就是m_cDecLib.decode的內部,首先有個ret變數,暫時沒弄清起啥作用。

然後就是儲存NALU的頭資訊。

最後就是switch語句,判斷NALU的型別,呼叫相對應的函數。上面省略SEI和保留或未定義NALU型別的情況,除了呼叫xDecodeSlice的那幾個case,其餘皆是non-VCL型別,具體參考JVET-s2001哪一部分也都在註釋裡。xDecodeSlice也就是接下來要講的函數。


2. xDecodeSlice

xDecodeSlice就是解碼slice segement的函數。slice segment所在幀的型別對應的就是NALU的型別。先講解一下兩個傳入引數:

  • iSkipFrame:要跳過解碼的幀數
  • iPOCLastDisplay:所有要解碼幀中POC的最小值

這裡再講一下我對於slice和slice segment的理解,slice segment是NALU傳輸的單位。1個獨立的slice segment接著多個非獨立的slice segment組成slice。應該是隻有獨立的slice segment要進行slice header的解碼。(這裡不確定,大家看看就好)

xDecodeSlice裡面主要分成兩部分,第一部分是對m_apcSlicePilot的操作,第二部分是對pcSlice的操作。由於第一部分我看的比較懵,第二部分又比較重要,所以第一部分就略微提一下。


2.1 m_apcSlicePilot

  //m_apcSlicePilot用於解碼slice的類指標,將picture header資訊傳入並初始化
  m_apcSlicePilot->setPicHeader( &m_picHeader );
  m_apcSlicePilot->initSlice(); // the slice pilot is an object to prepare for a new slice
                                // it is not associated with picture, sps or pps structures.

  Picture* scaledRefPic[MAX_NUM_REF] = {};//存有縮放參考幀的指標陣列

  //分支1
  if (m_bFirstSliceInPicture)
  {
    m_uiSliceSegmentIdx = 0;//一幀內slice segment的index
  }
  else
  {
    m_apcSlicePilot->copySliceInfo( m_pcPic->slices[m_uiSliceSegmentIdx-1] );//複製上一個slice segment的資訊
  }

  //將NALU的頭資訊傳入m_apcSlicePilot中
  m_apcSlicePilot->setNalUnitType(nalu.m_nalUnitType);
  m_apcSlicePilot->setNalUnitLayerId(nalu.m_nuhLayerId);
  m_apcSlicePilot->setTLayer(nalu.m_temporalId);

  m_apcSlicePilot->m_ccAlfFilterParam = m_cALF.getCcAlfFilterParam();
  m_HLSReader.setBitstream( &nalu.getBitstream() );
  m_HLSReader.parseSliceHeader( m_apcSlicePilot, &m_picHeader, &m_parameterSetManager, m_prevTid0POC, m_prevPicPOC );//解碼slice header 參考JVET-S2001 7.3.7 P107

setPicHeader():向m_apcSlicePilot傳入picture header的資訊

initSlice():m_apcSlicePilot的初始化過程

scaledRefPic:這裡面存放的就是縮放參考幀列表

分支1:如果解碼過程處於一幀的第一個slice,則需要將m_uiSliceSegmentIdx置為零,這個就是slicesegment的Index。否則就將上一個slice segment的資訊拷貝到m_apcSlicePilot中。

三個set函數:將NALU的頭資訊傳入m_apcSlicePilot中

m_ccAlfFilterParam:存著上一個slice segment的ALF引數

setBitstream()和parseSliceHeader():第一個就是設定m_HLSReader的位元流來源,parseSliceHeader就開始解碼slice header。

之後的一些處理就比較懵逼了,大部分都是幀級的處理,例如當前幀是不是被跳過解碼的。

  if (isRandomAccessSkipPicture(iSkipFrame, iPOCLastDisplay))
  {
    m_prevSliceSkipped = true;                        //設定解碼器類的表示前一個slice跳過解碼的flag為true
    m_skippedPOC = m_apcSlicePilot->getPOC();         //傳入被跳過解碼slice所在幀的POC
    return false;
  }

2.2 m_pcPic

下面的內容多而雜,而且都是預備工作,採取分段講解的方式

  xActivateParameterSets( nalu );//設定一下各種parameter sets的語法元素

  m_firstSliceInSequence[nalu.m_nuhLayerId] = false;
  m_firstSliceInBitstream  = false;

  Slice* pcSlice = m_pcPic->slices[m_uiSliceSegmentIdx];//取出影象類存有的slice segement
#if JVET_R0270
  m_pcPic->numSlices = m_uiSliceSegmentIdx + 1;         //slice segement的數量
#endif
  pcSlice->setPic( m_pcPic );                           //設定slice所在picture的指標
  m_pcPic->poc         = pcSlice->getPOC();
  m_pcPic->referenced  = true;                          //此幀是否被參考
  m_pcPic->temporalId  = nalu.m_temporalId;
  m_pcPic->layerId     = nalu.m_nuhLayerId;
  m_pcPic->subLayerNonReferencePictureDueToSTSA = false;//是否參考同一時域層的幀?

xActivateParameterSets():在m_pcPic中設定parameter sets相關的屬性,裡面還有將m_apcSlicePilot賦值給m_pcPic的操作,還是值得仔細看看(雖然我沒看)。

    //下面就是將m_apcSlicePilot賦值給m_pcPic的操作
    m_pcPic->allocateNewSlice();
    m_apcSlicePilot = m_pcPic->swapSliceObject(m_apcSlicePilot, m_uiSliceSegmentIdx);

pcSlice:取出影象類中相對應要處理的slice segment

numSlices:影象類中slice segment的數量

setPic():設定slice類所在的的picture

下面都是對影象類的操作,一般只有當解碼過程到一幀中的第一個VCL型別NALU這些改動才有意義


  if (m_bFirstSliceInPicture)
  {
    m_pcPic->setDecodingOrderNumber(m_decodingOrderCounter);//設定幀的解碼順序
    m_decodingOrderCounter++;
    m_pcPic->setPictureType(nalu.m_nalUnitType);
      
    // store sub-picture numbers, sizes, and locations with a picture
	// 有關subpicture的操作
    pcSlice->getPic()->subPictures.clear();

    for( int subPicIdx = 0; subPicIdx < sps->getNumSubPics(); subPicIdx++ )
    {
      pcSlice->getPic()->subPictures.push_back( pps->getSubPic( subPicIdx ) );
    }
      
    pcSlice->getPic()->numSlices = pps->getNumSlicesInPic();
    pcSlice->getPic()->sliceSubpicIdx.clear();
  }

這個分支只有當解碼過程處於一幀中的第一個slice才會觸發。

前三句就是設定影象類的解碼順序和影象型別

先清空一下影象類中存有的subPictures的資訊,再從PPS重新獲得(subPictures.clear()和for迴圈)

numSlices:設定影象類的slcie數量

sliceSubpicIdx.clear():清空一下subPictures的Index


  pcSlice->getPic()->sliceSubpicIdx.push_back(pps->getSubPicIdxFromSubPicId(pcSlice->getSliceSubPicId()));//從slice中獲subpictureId轉為subpictureIndex,存入slice所在幀類的容器sliceSubpicIdx
  pcSlice->constructRefPicList(m_cListPic);                                                               //構建參考幀列表
  pcSlice->setPrevGDRSubpicPOC(m_prevGDRSubpicPOC[nalu.m_nuhLayerId][currSubPicIdx]);
  pcSlice->setPrevIRAPSubpicPOC(m_prevIRAPSubpicPOC[nalu.m_nuhLayerId][currSubPicIdx]);
  pcSlice->setPrevIRAPSubpicType(m_prevIRAPSubpicType[nalu.m_nuhLayerId][currSubPicIdx]);
  pcSlice->scaleRefPicList( scaledRefPic, m_pcPic->cs->picHeader, m_parameterSetManager.getAPSs(), m_picHeader.getLmcsAPS(), m_picHeader.getScalingListAPS(), true );//構造縮放的參考幀列表,裡面註釋真正的縮放過程沒看,應該是編碼處用到的。傳入的scaledRefPic貌似也沒啥改動,就清空了一下

sliceSubpicIdx.push_back():儲存每個slice所在的subPicture Index資訊

constructRefPicList():構建參考幀列表,值得看一看

下面連續三個set,比較懵,暫時不解釋。

scaleRefPicList():構建縮放的參考幀列表,也是值得看一看


    if (!pcSlice->isIntra())//如果不是I幀
    {
      bool bLowDelay = true;//是否是LowDelay模式
      int  iCurrPOC  = pcSlice->getPOC();//當前slice所在幀的POC
      int iRefIdx = 0;//參考幀的Index,用來回圈

	  //下面兩個迴圈就是判斷此slice所在幀的參考幀的poc順序是不是在當前poc之前,如果之後就不是LowDelay模式
      for (iRefIdx = 0; iRefIdx < pcSlice->getNumRefIdx(REF_PIC_LIST_0) && bLowDelay; iRefIdx++)
      {
        if ( pcSlice->getRefPic(REF_PIC_LIST_0, iRefIdx)->getPOC() > iCurrPOC )
        {
          bLowDelay = false;
        }
      }
      if (pcSlice->isInterB())
      {
        for (iRefIdx = 0; iRefIdx < pcSlice->getNumRefIdx(REF_PIC_LIST_1) && bLowDelay; iRefIdx++)
        {
          if ( pcSlice->getRefPic(REF_PIC_LIST_1, iRefIdx)->getPOC() > iCurrPOC )
          {
            bLowDelay = false;
          }
        }
      }

      pcSlice->setCheckLDC(bLowDelay);//傳入slice類中
    }

	//如果開啟SMVD模式,當然此時就不可能LowDelay,當然此時也必須要有MVD的傳輸
    if (pcSlice->getSPS()->getUseSMVD() && pcSlice->getCheckLDC() == false
      && pcSlice->getPicHeader()->getMvdL1ZeroFlag() == false
      )
    {
    }

第一個if裡面主要是設定slice類到底是不是LowDelay,判斷條件也簡單,大家看程式碼吧。

第二個if與SMVD模式有關。程式碼比較長就不貼出來了,邏輯也不難。


    pcSlice->setRefPOCList();//設定一下slice類中的m_aiRefPOCList屬性,表示對應參考幀的POC

	//儲存NALU一些資訊
    NalUnitInfo naluInfo;
    naluInfo.m_nalUnitType = nalu.m_nalUnitType;
    naluInfo.m_nuhLayerId = nalu.m_nuhLayerId;
    naluInfo.m_firstCTUinSlice = pcSlice->getFirstCtuRsAddrInSlice();
    naluInfo.m_POC = pcSlice->getPOC();
    m_nalUnitInfo[naluInfo.m_nuhLayerId].push_back(naluInfo);

  Quant *quant = m_cTrQuant.getQuant();//獲得量化變換相關的類
  if (pcSlice->getExplicitScalingListUsed())//如果使用顯性縮放列表
  {
  }
  else
  {
  }

  if (pcSlice->getSPS()->getUseLmcs())//如果使用Lmcs
  {
  }
  else
  {
  }

setRefPOCList():設定一下slice類中的m_aiRefPOCList屬性

接下來會儲存NALU的一些資訊

quant:這個是與量化變換相關的類範例,與接下里的顯性縮放列表有關

接下來兩個if,一個與顯性縮放列表有關,另一個與Lmcs有關,都是從APS中得到的,等看到相關的再仔細看吧


  //  Decode a picture
  m_cSliceDecoder.decompressSlice( pcSlice, &( nalu.getBitstream() ), ( m_pcPic->poc == getDebugPOC() ? getDebugCTU() : -1 ) );//呼叫slice解碼器解碼

  m_bFirstSliceInPicture = false;//標識不再是一幀中的第一個slice
  m_uiSliceSegmentIdx++;//slice segment的Index加一

  pcSlice->freeScaledRefPicList( scaledRefPic );//清空縮放參考幀列表

m_cSliceDecoder.decompressSlice():呼叫slice解碼器進行解碼,也是本篇部落格最重要的函數,詳細的講解就會在下一篇中。

m_uiSliceSegmentIdx:slice segment的Index自然也要記得加一

freeScaledRefPicList:清空縮放的參考幀列表