一、前言：

目前，大模型的一個熱門應用方向text2sql它可以幫助使用者快速生成想要查詢的SQL語句。那對於使用者來說，大部分簡單的sql都是正確的，但對於一些複雜邏輯來說，需要使用者在產出SQL的基礎上進行簡單修改，Text2SQL應用主要還是幫助使用者去解決開發時間，減少開發成本。

Text to SQL：簡稱Text2SQl，是將自然語言文字（Text）轉換成結構化查詢語言SQL的過程，屬於自然語言處理-語意分析（Semantic Parsing）領域中的子任務。

它的目的可以簡單概括為：「打破人與結構化資料之間的壁壘」，即普通使用者可以通過自然語言描述完成複雜資料庫的查詢工作，得到想要的結果。

二、背景應用：

目前大家對T2S的做法大致分為兩種，

一種是用現有的大模型來直接生成，例如ChatGPT、GPT-4模型，但是對於一些公司來說，資料是屬於保密資產，這種方式相當於將自己公司的資料資訊透漏給大模型，屬於資料洩露行為；
另一種方式是利用開源的大模型做finetune，比如chatglm2-6b來做微調，這個也是目前我們在做的，同時開源的資料集也有很多，簡單羅列如下：

資料集	資料集介紹
WikiSQL	WikiSQL是一個大型的語意解析資料集，由80,654個自然語句表述和24,241張表格的sql標註構成。 WikiSQL中每一個問句的查詢範圍僅限於同一張表，不包含排序、分組、子查詢等複雜操作。雖然資料規模大，SQL語法卻非常簡單；適合做NL2SQL任務入門。
Spider	耶魯大學在2018年新提出的一個大規模的NL2SQL（Text-to-SQL）資料集。該資料集包含了10,181條自然語言問句、分佈在200個獨立資料庫中的5,693條SQL，內容覆蓋了138個不同的領域。涉及的SQL語法最全面，是目前難度最大的NL2SQL資料集。
Cspider	CSpider是Spider的中文版，西湖大學出品。
Sparc	耶魯大學在2019年提出的基於對話的Text-to-SQL資料集。 SParC是一個跨域上下文語意分析的資料集，是Spider任務的上下文互動版本。SParC由4298個對話（12k+個單獨的問題，每個對話平均4-5個子問題，由14個耶魯學生標註）組成，這些問題通過使用者與138個領域的200個複雜資料庫進行互動獲得。
CHASE	微軟亞研院和北航、西安交大聯合提出的首個大規模上下文依賴的Text-to-SQL中文資料集。內容分為CHASE-C和CHASE-T兩部分，CHASE-C從頭標註實現，CHASE-T將Sparc從英文翻譯為中；相比以往資料集，CHASE大幅增加了hard型別的資料規模，減少了上下文獨立樣本的資料量，彌補了Text2SQL多輪互動任務中文資料集的空白。