txtai 4.0 正式釋出,構建 AI 驅動的語意搜尋應用

2022-01-13 09:00:32

txtai 4.0 已正式釋出,這是一個具有大量新特性的重要版本,同時也會相容舊版本,增加了諸如內容儲存、物件儲存、使用 SQL 查詢、索引壓縮、重新索引(reindexing)、外部向量等功能。

資料方面,新版釋出之後,程式碼量增加了 50%,解決了 36 個問題,據稱是迄今為止最大的版本。

新特性

  • 支援儲存文字內容()
  • 新增選項以索引內容字典()
  • 新增 SQL 支援以生成結合嵌入 (embedding) + 資料庫查詢 (  )
  • 將 reindex 方法新增到嵌入()
  • 新增對索引存檔的支援()
  • 為嵌入新增關閉方法()
  • 更新 API 以使用嵌入 + 資料庫搜尋 (  )
  • 為表格管道 (tabular pipeline) 新增內容選項()
  • 更新工作流範例以支援嵌入內容 (  )
  • 將索引後設資料新增到嵌入設定()
  • 新增物件儲存()
  • 聚類時會聚合部分查詢結果()
  • 將函數引數新增到嵌入重新索引()
  • 新增對使用者定義的列別名的支援()
  • 使用 SQL 括號表示法支援多詞和更復雜的 JSON 路徑表示式 (  )
  • 支援 SQLite 3.22+ (  )
  • 新增預先計算的向量支援()
  • 更改檔案/物件插入以僅保留最新記錄()
  • 更新包含 4.0 變化的檔案 (  )

改進

  • 修改工作流以選擇帶有切片的批次處理 (  )
  • 為工作流新增張量支援 (  )
  • 如果作為檔案路徑提供,則讀取 YAML 設定 (  )
  • 向 API 新增管道更容易()
  • 支援同時處理任務動作()
  • 新增張量工作流 notebook()
  • 更新預設 ANN 引數 (  )
  • 要求 Python 3.7+ (  )
  • 一致地命名嵌入 id 欄位()
  • 新增 txtai 版本屬性()
  • 修改嵌入以僅對輸入檔案進行一次迭代()
  • 提升向量轉換的效率 (  )

Bugfix

  • 在 API 寫入呼叫周圍新增執行緒鎖 (  )
  • 通過 API 公開 caption 和 objects (  )
  • 更改 pickle 呼叫以使用支援最低 Python 版本的協定 (  )
  • HFOnnx 預期的 ORT provider 錯誤 (  )

txtai 是一個人工智慧驅動的搜尋引擎,可以在文字的各個部分上建立了一個 AI 驅動的索引。 txtai 支援構建文字索引以執行相似性搜尋並建立基於問-答的系統。此外,txtai 還具有用於 zero-shot 分類的功能。

展開閱讀全文