txtai 4.0 已正式釋出,這是一個具有大量新特性的重要版本,同時也會相容舊版本,增加了諸如內容儲存、物件儲存、使用 SQL 查詢、索引壓縮、重新索引(reindexing)、外部向量等功能。
資料方面,新版釋出之後,程式碼量增加了 50%,解決了 36 個問題,據稱是迄今為止最大的版本。
新特性
- 支援儲存文字內容()
- 新增選項以索引內容字典()
- 新增 SQL 支援以生成結合嵌入 (embedding) + 資料庫查詢 ( )
- 將 reindex 方法新增到嵌入()
- 新增對索引存檔的支援()
- 為嵌入新增關閉方法()
- 更新 API 以使用嵌入 + 資料庫搜尋 ( )
- 為表格管道 (tabular pipeline) 新增內容選項()
- 更新工作流範例以支援嵌入內容 ( )
- 將索引後設資料新增到嵌入設定()
- 新增物件儲存()
- 聚類時會聚合部分查詢結果()
- 將函數引數新增到嵌入重新索引()
- 新增對使用者定義的列別名的支援()
- 使用 SQL 括號表示法支援多詞和更復雜的 JSON 路徑表示式 ( )
- 支援 SQLite 3.22+ ( )
- 新增預先計算的向量支援()
- 更改檔案/物件插入以僅保留最新記錄()
- 更新包含 4.0 變化的檔案 ( )
改進
- 修改工作流以選擇帶有切片的批次處理 ( )
- 為工作流新增張量支援 ( )
- 如果作為檔案路徑提供,則讀取 YAML 設定 ( )
- 向 API 新增管道更容易()
- 支援同時處理任務動作()
- 新增張量工作流 notebook()
- 更新預設 ANN 引數 ( )
- 要求 Python 3.7+ ( )
- 一致地命名嵌入 id 欄位()
- 新增 txtai 版本屬性()
- 修改嵌入以僅對輸入檔案進行一次迭代()
- 提升向量轉換的效率 ( )
Bugfix
- 在 API 寫入呼叫周圍新增執行緒鎖 ( )
- 通過 API 公開 caption 和 objects ( )
- 更改 pickle 呼叫以使用支援最低 Python 版本的協定 ( )
- HFOnnx 預期的 ORT provider 錯誤 ( )
。
txtai 是一個人工智慧驅動的搜尋引擎,可以在文字的各個部分上建立了一個 AI 驅動的索引。 txtai 支援構建文字索引以執行相似性搜尋並建立基於問-答的系統。此外,txtai 還具有用於 zero-shot 分類的功能。