按關鍵詞搜尋採集新聞資訊文章教學

2020-09-29 11:00:39

簡數採集平臺支援按關鍵詞搜尋採集新聞資訊類,是謂新聞泛採集。新聞泛採集支援新聞資訊按關鍵詞泛採集,覆蓋國內8千多家新聞資訊類網站和APP(例如:微信公眾號文章和今日頭條),最新資訊實時抓取,使用方法非常簡單,只需輸入對應關鍵詞即可。

使用步驟:

  1. 任務建立和設定
  2. 資料處理設定(可選)
  3. 採集結果
  4. 注意事項

 

1. 任務建立和設定:

  I、任務建立有兩個入口:

  • 在控制檯左側 「採集任務管理」 列表中,點選 「新聞泛採集」;

  • 在建立工作列目處,點選 「+新聞泛採集」;

  II、任務設定:

  • 填寫任務名:不能填寫特殊符號;

  • 關鍵詞:可以同時填寫多個關鍵詞,用逗號,分隔即可(是英文半形逗號),例如:華為,小米 也可填寫多組關鍵詞,每組關鍵詞用分號;隔開(是英文半形分號),例如:華為,小米;寶馬,賓士;電腦,手機; 提示:每個逗號分隔的關鍵詞關係預設是或者OR,可在下方的關鍵詞關係處修改為並且AND;

  • 選擇日期:不能超過30天;

  • 採集頁數:設定採集的頁數及每頁的條數,定時採集最多設定5頁;

  • 關鍵詞匹配欄位:預設標題和正文,即標題或正文內容一處有出現關鍵詞,即會採集入庫,可單獨選擇標題或正文;

  • 關鍵詞關係:

    • 或者OR:多個關鍵詞中有一個在資料中出現,就採集入庫;
    • 並且AND:多個關鍵詞要全部在資料中同時出現,才採集入庫,只出現個別的,不採集入庫;
  • 網站分類:可選擇不限制(預設)、新聞網站、政府網站、報刊網站和APP;

  • 指定網站:可設定只採集某個網站的資料,暫時只支援微信公眾號、今日頭條、一點資訊和百家號;

 

2. 資料處理設定(可選)

  不需要資料處理的可以跳過這一步

  I、資料處理入口

  點選【設定資料替換、填充、刪除等】按鈕進入資料處理設定;

  注意:使用該功能,必須要先採集有資料入庫,該功能是在已採集的資料基礎上設定的!

  II、資料處理設定

  該功能類似詳情提取器的設定,可以設定刪除、填充、替換和過濾等功能;

  • 【已有資料連結】:對應顯示的網址是該任務已採集入庫資料的網址,可點選出現下拉選單選擇其他已採集資料的網址;

  • 【測試資料處理】按鈕:資料處理規則設定後,可點選【測試資料處理】,對【已有資料連結】對應的已採集入庫資料直接執行規則,而不是重新採集一次再執行規則;

  • 【檢視該已有資料】按鈕:檢視【已有資料連結】對應的已採集入庫資料,所以彈出的是簡數預覽&編輯資料介面;

   注意:該設定儲存後,對新採集入庫的資料生效,之前已入庫的資料無效;

  III、圖片下載設定

  新聞泛採集採集的原始圖片有可能是無法正常顯示的(防盜鏈),如需圖片,請在「圖片下載設定」中,選擇暫存簡數或阿里雲OSS或七牛儲存;

 

3. 採集結果:

  預設採集欄位:

  標題、內容、釋出時間、標籤、描述、關鍵詞、網站名稱(x_name)、網站域名(x_id)、第一張圖片連結等;

 

注意事項:

  • 新聞泛採集是對接第三方介面實現,使用上會受第三方介面穩定性影響,如發現問題,請隨時聯絡我們。