AI 這個話題很火,我也一直在關注著,很多人甚至覺得 AI 會改變世界,也許你會好奇:ChatGPT 會在三年內終結程式設計嗎?AI有可能改變人的學習方式嗎?AI 能否取代打工人?本文會對相關問題從我們可見日常問題進行解答。
希望從:AI 輔助提高了人的閱讀效率嗎、AI能幫助人更好地瞭解和記憶書中的內容嗎、AI 技術有可能改變人的閱讀方式嗎三個方面進行解答。並用 AI 工具進行輔助閱讀,甚至只用 AI 工具閱讀,同時我會分享我用到的工具和方法。
相關資料連結:
GPT-4 論文(英文內容)
《Mental Models》(英文內容)
《長壽-當人類不再衰老》(中文內容)
通過多次使用,我就遇到了兩個非常嚴重的問題:內容錯誤和對話式學習。
先說下內容錯誤,拿 Mental Models 這本書為例,我讓它羅列 30 種模型,它回覆了一個 SWOT 分析,但我看了下書籍的目錄,我發現並沒有提到這個模型,於是我就問它哪裡提到了這個內容,然後它的回答是「我混淆了這本書和其他一些管理類書籍中的內容」:
這個可以說是非常非常大的錯誤,如果內容無法保證準確,那後續的效率和改變都是空談。
我研究和測試了下,造成這個問題的原因還是 ChatGPT 的字數限制,我們沒法將書裡的所有字都給 ChatGPT,我們需要做一些相對 Hack 的事情,最終導致這個結果有點問題。而且我在測試的時候,ChatPDF 還在用 ChatGPT-3 模型,還不支援圖片,ChatPDF 應該是先用 OCR 技術,將PDF 轉為文字,再將內容傳給 ChatGPT,所以也有部分原因是 PDF 轉文字時,導致了內容缺失和錯誤。
再說下對話式學習的問題,目前嘗試下來有好有壞:
對於目前這種對話式的 AI 閱讀輔助工具,我更傾向於用於閱讀比較明確的場景,比如:
對於其他型別的書籍,我覺得還有很大很大的優化空間,而且這跟模型的技術限制無關,即使 OpenAI 放開了字數限制,不解決對話式互動問題,適用的範圍還是比較窄。
關於這個問題,我倒是有個不成熟的想法,AI 能總結,應該也能重新組合,如果我們能設定一定的框架指令碼,是不是能將書的內容,做成互動式的遊戲?
或者類似我在 Summary 一文中提到的那樣,給一些範例給 AI,然後 AI 能返回一些你可能 Highlight 的內容,亦或者將書籍內容做一些模版性的總結?
首先說說 ChatPDF 和 ChatDoc 。我這次,用它倆嘗試閱讀了下《The Great Mental Models》(這本書其實就是《思考的框架》的英文版)。從結果來看,ChatDoc 的確要比 ChatPDF 靠譜很多。這個是 ChatPDF 的總結:
這個是 ChatDoc:
從內容的準確性來說,我覺得 ChatDoc 比 ChatPDF 要好很多。
首先,我覺得 ChatDoc 的左 PDF,右邊 AI 助手的設計,比 ChatPDF 的對話式設計要好非常多。當我遇到不懂的地方,我可以框選左側的內容, ChatDoc 會自動將內容帶到右側的輸入框,我只需要做一些補充提問即可,比如下圖裡,我問 AI 某章節主要講了什麼內容,在閱讀一些英文書籍或論文,這個模式對我的幫助也很大,我可以問 AI 這句話是什麼意思,甚至可以讓 AI 以更易於理解的話術解釋那句話。
另外,在上圖,你還能看到我針對書中的某個細節進行了提問,答得非常好。有兩個令我 Aha 的時刻:
你在好好學習裡看到的總結,就是我用這個工具輔助完成的。
再來說說,Readwise 閱讀文章的感受,Readwise 的 AI 主要有以下幾個功能,你可以問問題,讓 AI 做總結。不過這個產品最大的問題是響應速度,讓它總結文章,要 loading 很久。
並且,對於 AI 輔助閱讀文章來說:
回顧開頭四個問題:
坦率說來,以目前用到的工具來看,AI 工具還有很多缺點,但整體來說,我認為它很可能會改變我的閱讀方式,並且在某些場景提升我的閱讀效率。
以下是我總結的 AI 優勢,以及我認為可能改變的點。
我的「閱讀」一般分成兩種,一種是「學習型」的閱讀,另一種是「檢索型」的閱讀。
前者需要的是「網」,後者需要的是「點」。比如學習前端庫 React,你需要看它的官方檔案,甚至需要在自己的電腦上,跑一下官方 Demo,你需要建立完整的框架,並實踐,才能算學會使用。
但如果你只想查詢某個問題,那就只需要搜尋一下檔案,找到某個點就可以了。而 AI 非常擅長這個。以前這類閱讀場景,我都是依賴搜尋完成,但檢索型的閱讀,很多時候很難確定搜尋詞,需要多次搜尋,才能找到答案,而現在依靠 AI,搜尋具備了文字理解能力,除了能幫你定位到位置外,還能直接給你答案。
對於檢索型閱讀,我認為 AI 能提高很多效率。
優點二和三,我覺得算是一類,這兩點會極大地改變我的閱讀方式。以前不管是學習型閱讀還是檢索型閱讀,都會遇到「看不懂」的問題。
第一種是語言上看不懂,這種就依賴翻譯軟體,但這些軟體翻譯的質量都比較一般。現在用上 ChatGPT 的翻譯,效果好很多,這將會極大地拓寬我的閱讀面。甚至我現在可能會考慮看日語、法語等非英語書籍。
第二種是字都看懂了,但看不懂表達的意思。有了 AI 輔助,很多複雜的內容,都能讓 AI 解釋一遍。甚至還能讓 AI 進行舉例(不過這個準確度要比檢索和翻譯低很多)。
人的短期記憶容量,如果用 AI 產品常用的單位 token 來計算,遠遠小於 GPT-4 的 32,768 token(約為 23,000 個英文單詞),所以人類在進行「學習型」閱讀時,最常用的方法就是做筆記,將重點標註出來,減輕記憶負擔。
但不管如何記錄,人總有忽略的地方。比如我在前面提到的 ChatDoc 的例子,我讀到 90 多頁的時候,完全沒想起它講的內容跟第 20 多頁內容有關係,但 AI 幫我找到了。
這個跟優點四有點關係。
因為物理輸入方式限制,導致我們的閱讀很多時候都是線性的,但人的思想是網狀的,書本有的時候傳遞的也是網狀的資訊,所以才有了所謂的思維導圖等工具,幫助人更好地理解書本的資訊。
所以我就想到,既然 AI 已經能找到人忽略的點,那是否也能幫助我們建立網狀圖?
再發散地看,是不是筆記類的產品,也會被改變?像 RoamResearch 這類依賴使用者手動打 tag 的檔案工具是不是也會被顛覆?人只需要記錄就好了,剩下的交給 AI。需要一個記錄健身資料 Database?你只需要先記錄健身資料,不需要考慮表如何設計,讓 AI 生成一個即可。並且記錄方式也會發生改變。以前是先有表,再有資料,現在只需要先有資料就行。
回到前面提到的問題:
最近 AI 相關的話題非常火爆,也有部分朋友留言說 AI 出現,我們這種人工 Summary 遲早要被淘汰。也有人說有了 AI,總結起來會不會更快。
聊對比前,我想先科普一些 ChatGPT 相關的知識,各位瞭解這些知識後,才能更好地對比 AI Summary 和人工 Summary。
Token:這個指的是 OpenAI 處理文字的基本單位,可以是單詞或者字元的片段。例如,「hamburger」 被分成 「ham」、「bur」 和 「ger」 三個 Token,而 「pear」 是一個 Token。1個 Token 大約相當於 4 個字元或者 0.75 個英文單詞。
一些限制:
懂了這幾個限制後,我再講解下,市面上的視訊/Podcast Summary 是怎麼做的。實際上你能直接用 ChatGPT 模擬這些外掛。
首先,因為限制 #3 ,需要將視訊/Podcast 的音訊轉為文字。這一步因為 Youtube 有 Transcript,所以很多產品會直接拿 Transcript 來用。
第二步將 Transcript 和 Prompt(一般是「請總結以下內容」)一起傳給 OpenAI 。傳給 Open AI 的東西類似這樣,你也可以在 ChatGPT 上試試,只需要將下方 Transcript 的內容替換成 Youtube 上的真實 Transcript 即可:
Please summarize the following sentences.
Text: """
Transcript
"""
最後 OpenAI 就會返回 Summary 結果。
但某些視訊和 Podcast 會非常長,一集可能有幾萬字,因為 #2 的限制,根本沒法將一集完整的 Transcript 都傳給 OpenAI,所以不同的產品,會有不同的處理方式。目前常見的處理方式是「裁切總結」,將 Transcript 切成多個時長為 5 分鐘的 Transcript ,再傳給 OpenAI ,讓 OpenAI 先總結一遍,然後再將這些段落總結,傳給 OpenAI ,再讓它總結一遍,生成最終的總結內容。
瞭解完這些 Summary 應用的原理後,目前這類產品的缺點也就相對好理解了:
某些沒有 Transcript 的內容基本沒法 Summary。比如短視訊,或者 https://www.cnblogs.com/ting1/p/vlog,很多都是隻有畫面,沒有說話內容。這些都沒法 Summary。
當然應該沒有人需要短視訊 Summary 吧,內容已經夠快餐了