簡數採集平臺支援按關鍵詞搜尋採集新聞資訊類,是謂新聞泛採集。新聞泛採集支援新聞資訊按關鍵詞泛採集,覆蓋國內8千多家新聞資訊類網站和APP(例如:微信公眾號文章和今日頭條),最新資訊實時抓取,使用方法非常簡單,只需輸入對應關鍵詞即可。
I、任務建立有兩個入口:
在控制檯左側 「採集任務管理」 列表中,點選 「新聞泛採集」;
在建立工作列目處,點選 「+新聞泛採集」;
II、任務設定:
填寫任務名:不能填寫特殊符號;
關鍵詞:可以同時填寫多個關鍵詞,用逗號,分隔即可(是英文半形逗號),例如:華為,小米 也可填寫多組關鍵詞,每組關鍵詞用分號;隔開(是英文半形分號),例如:華為,小米;寶馬,賓士;電腦,手機; 提示:每個逗號分隔的關鍵詞關係預設是或者OR,可在下方的關鍵詞關係處修改為並且AND;
選擇日期:不能超過30天;
採集頁數:設定採集的頁數及每頁的條數,定時採集最多設定5頁;
關鍵詞匹配欄位:預設標題和正文,即標題或正文內容一處有出現關鍵詞,即會採集入庫,可單獨選擇標題或正文;
關鍵詞關係:
網站分類:可選擇不限制(預設)、新聞網站、政府網站、報刊網站和APP;
指定網站:可設定只採集某個網站的資料,暫時只支援微信公眾號、今日頭條、一點資訊和百家號;
不需要資料處理的可以跳過這一步
I、資料處理入口
點選【設定資料替換、填充、刪除等】按鈕進入資料處理設定;
注意:使用該功能,必須要先採集有資料入庫,該功能是在已採集的資料基礎上設定的!
II、資料處理設定
該功能類似詳情提取器的設定,可以設定刪除、填充、替換和過濾等功能;
【已有資料連結】:對應顯示的網址是該任務已採集入庫資料的網址,可點選出現下拉選單選擇其他已採集資料的網址;
【測試資料處理】按鈕:資料處理規則設定後,可點選【測試資料處理】,對【已有資料連結】對應的已採集入庫資料直接執行規則,而不是重新採集一次再執行規則;
【檢視該已有資料】按鈕:檢視【已有資料連結】對應的已採集入庫資料,所以彈出的是簡數預覽&編輯資料介面;
注意:該設定儲存後,對新採集入庫的資料生效,之前已入庫的資料無效;
III、圖片下載設定
新聞泛採集採集的原始圖片有可能是無法正常顯示的(防盜鏈),如需圖片,請在「圖片下載設定」中,選擇暫存簡數或阿里雲OSS或七牛儲存;
預設採集欄位:
標題、內容、釋出時間、標籤、描述、關鍵詞、網站名稱(x_name)、網站域名(x_id)、第一張圖片連結等;
注意事項:
新聞泛採集是對接第三方介面實現,使用上會受第三方介面穩定性影響,如發現問題,請隨時聯絡我們。