【AI新趨勢期刊#1】GPT自動理解視訊、AI法律顧問、大模型安全圍欄

2023-07-05 12:00:30

每天都要瀏覽大量AI相關新聞,是不是感到資訊量爆炸,有效資訊少?

這麼多新產品和新工具,到底哪些是真正是有價值的,哪些只是浮躁的一時熱點?

想參與AI產品和工具的開發,從哪裡能夠獲得大量的靈感和思路?

我會把AI相關的新趨勢、新想法、新思路,和成熟AI產品、工具、模型等整理在這裡,幫助大家去除資訊噪音,更高效的瞭解AI前沿發展。

主要圍繞:

  • AI業界趨勢、想法、思路
  • AI產品
  • AI開發者工具
  • AI模型

作為本期刊的第一期,我們主要圍繞2023年4月釋出的相關產品和技術工具。

終端產品

AI中國法律助手

https://github.com/lvwzhen/law-cn-ai

該專案把 中國法律文書 作為知識庫,將知識庫embedding後存入向量資料庫,然後向用戶提供了完整介面,使用者可以用自然語言提問,後臺使用openAI的API,結合知識庫的現有知識進行自然語言的回答。

主要技術:

  • 預處理知識庫
  • 在PostgreSQL中使用 pgvector 儲存嵌入向量。
  • 執行向量相似性搜尋,查詢與問題相關的內容。
  • 將內容注入到OpenAI GPT-3文字自動補全中,並將響應流式傳輸到使用者端。

HuggingChat

https://huggingface.co/chat/

Hugging Face釋出了一個ChatGPT開源替代品名為HuggingChat。Hugging Face大家都懂的,可以理解成AI界的Github,很多註明的開源模型都在上面首發。

底層模型目前有兩種選擇:

金融/投資 GPT助手

https://finchat.io/

FinChat.io是由ChatGPT提供技術支援的工具。它利用人工智慧生成關於公共公司和投資者的問題的答案。為了提供準確的答案,FinChat會提供推理、來源和資料等支援。實測效果有點酷炫。

微軟AI設計器

https://designer.microsoft.com/

輸入文字,通過AI生成一個合適的設計圖,且支援動態圖。例如下面的文字描述"為我的油管頻道‘Science for Littles’設計一個動態的廣告"生成了右方的一些設計圖,生成速度非常快,還可調節圖片尺寸。

選擇了右方較為滿意的設計後,可以繼續在線上編輯器中修改你的設計,支援自由匯出各種格式與下載。

AI Shell

https://github.com/builderio/ai-shell

將chatGPT整合到你的shell中,用ai命令進行操作

VLog

https://github.com/showlab/VLog

V是大寫,他可以將一段長視訊轉換成包含視覺和音訊資訊的檔案。通過將此檔案傳送到ChatGPT,我們可以針對這個視訊的內容進行自然語言聊天!當然,需要消耗你自己的openAI API額度。

開發者工具

音訊能力工具集:AudioGPT

https://huggingface.co/spaces/AIGC-Audio/AudioGPT

這個工具集裡包含了大量音訊相關的處理能力工具,大部分工具使用時需要填寫你自己的GPT API key,消耗你的額度,我試了一下,文字轉語音,一句5個詞的句子,消耗了我4000個token!(暴風哭泣!)

演講:

  • 文字轉語音
  • 風格遷移
  • 語音識別
  • 語音增強
  • 語音分離
  • 語音翻譯
  • 單聲道到雙聲道
  • 文字轉唱

唱歌:

  • 文字轉唱歌

音訊處理:

  • 文字到音訊
  • 音訊修復
  • 影象到音訊
  • 聲音檢測
  • 目標聲音檢測
  • 聲音提取

大模型安全圍欄:NeMo-Guardrails

https://github.com/NVIDIA/NeMo-Guardrails

NeMo Guardrails 是一個開源工具包,可以輕鬆地將可程式化護欄新增到基於 LLM 的對話系統中。Guardrails(或簡稱「rails」)是控制大型語言模型輸出的特定方式,例如不談論政治、以特定方式響應特定使用者請求、遵循預定義的對話路徑、使用特定語言風格、提取結構化資料等。

主要優勢:

  • 構建值得信賴、安全可靠的 LLM 對話系統:使用 NeMo Guardrails 的核心價值是能夠編寫 rails 來指導對話。開發人員可以選擇定義他們的 LLM 驅動的機器人在某些主題上的行為,並讓他們的創造力不受其他人的影響!
  • 通過操作連線模型、鏈、服務等: LLM 不需要解決所有挑戰。NeMo Guardrails 提供了將您的程式碼庫或服務無縫安全地連線到聊天機器人的能力!

chatGLM結合本地知識庫:langchain-chatGLM

https://github.com/imClumsyPanda/langchain-ChatGLM

一種利用 ChatGLM-6B + langchain 實現的基於本地知識的 ChatGLM 應用。支援將txt、markdown等格式的文字檔案上傳後,進行提問。會給出自然語言的回答,並且在最後會標註出參照本地文字的出處。

本專案實現原理如下圖所示,過程包括載入檔案 -> 讀取文字 -> 文字分割 -> 文字向量化 -> 問句向量化 -> 在文字向量中匹配出與問句向量最相似的top k個 -> 匹配出的文字作為上下文和問題一起新增到prompt中 -> 提交給LLM生成回答。

支援的LLM模型:

  • THUDM/chatglm-6b
  • THUDM/chatglm-6b-int8
  • THUDM/chatglm-6b-int4
  • THUDM/chatglm-6b-int4-qe
  • ClueAI/ChatYuan-large-v2

支援的Embedding 模型:

  • nghuyong/ernie-3.0-nano-zh
  • nghuyong/ernie-3.0-base-zh
  • shibing624/text2vec-base-chinese
  • GanymedeNil/text2vec-large-chinese

在任意消費級終端部署大模型:MLC LLM

https://mlc.ai/mlc-llm/

MLC LLM是一種通用解決方案,可以使任何語言模型在各種硬體後端和本地應用程式上在地化部署,同時為所有人提供一個高效的框架,以進一步優化模型效能,以適應其自身用例。

我們的使命是使每個人都能夠在其裝置上本地開發、優化和部署AI模型。

這個方向的探索如果出現突破,將大大減少模型部署和使用的門檻,讓全世界的低算力裝置也能加入AI算力陣營。

仿openAI風格API呼叫chatGLM:chatglm-openai-api

https://github.com/ninehills/chatglm-openai-api

讓開發者能夠用呼叫openAI API的方式呼叫其他開源模型,節省大量開發工作。

參考

Github Trending

https://github.com/trending

Meta360創新學院-AGI前夜

https://docs.meta360.vip