CogVLM 是一個強大的開源視覺語言模型(VLM)。CogVLM-17B 擁有 100 億視覺引數和 70 億語言引數。
CogVLM-17B 在 10 個經典跨模態基準測試上取得了 SOTA 效能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面則排名第二,超越或與 PaLI-X 55B 持平。您可以通過線上 demo 體驗 CogVLM 多模態對話。
CogVLM 能理解和回答各種型別的問題,並有一個視覺定位版本。
CogVLM 有時比 GPT-4V(ision) 提取到更多的細節資訊。
CogVLM 模型包括四個基本元件:視覺變換器(ViT)編碼器、MLP介面卡、預訓練的大型語言模型(GPT)和一個視覺專家模組。更多細節請參見論文。
我們提供兩種圖形化使用者介面(GUI)進行模型推斷,分別是網頁演示和命令列介面(CLI)。如果您想在Python程式碼中使用它,很容易修改CLI指令碼以適應您的情況。
首先,需要安裝依賴項。
pip install -r requirements.txt
python -m spacy download en_core_web_sm
我們還提供基於Gradio的本地網頁演示。首先,通過執行 pip install gradio 安裝Gradio。然後下載並進入此倉庫,執行 web_demo.py。具體使用方式如下:
python web_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python web_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16
網頁演示的 GUI 介面如下:
我們開源了不同下游任務的模型權重:
通過CLI演示,執行以下命令:
python cli_demo.py --from_pretrained cogvlm-base-224 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-base-490 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python cli_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16
該程式會自動下載 sat 模型並在命令列中進行互動。您可以通過輸入指令並按 Enter 生成回覆。
輸入 clear 可清除對話歷史,輸入 stop 可停止程式。
https://github.com/THUDM/CogVLM/tree/main
在 CogVLM 的指令微調階段,使用了來自 MiniGPT-4 、 LLAVA 、 LRV-Instruction、 LLaVAR 和 Shikra 專案的一些英文影象-文字資料,
更多優質內容請關注公號:汀丶人工智慧;會提供一些相關的資源和優質文章,免費獲取閱讀。