文字處理簡介


文字處理直接應用於自然語言處理,也稱為NLP。 NLP旨在處理人類在彼此交流時所說或寫的語言。 這不同於計算機和人之間的通訊,其中通訊是由人寫的計算機程式或人的某些姿勢,例如在某個位置點選滑鼠。 NLP試圖理解人類所說的自然語言並對其進行分類,並在必要時對其進行分析。 Python擁有豐富的庫,可滿足NLP的需求。自然語言工具包(NLTK)是一套這樣的庫,它提供了NLP所需的功能。

下面是一些使用NLP和python間接使用NLTK的應用程式。

概要

很多時候,我們需要獲得新聞文章,電影情節或重大故事的摘要。 它們都是用人類語言編寫的,而不使用NLP,我們需要依賴另一個人對總結和解釋。 但是在NLP的幫助下,我們可以編寫程式來使用NLTK,並用各種引數彙總長文字,比如在最終輸出中想要的文字百分比,選擇正面和負面的詞彙進行匯總等。線上新聞提要依賴 在這種摘要技術上提出新聞見解。

基於語音的工具

像蘋果Siri或亞馬遜Alexa這樣的基於語音的工具依靠NLP來理解與人類互動非常成功。 他們有大量的單詞,句子和語法訓練資料集來解釋來自人類的問題或命令並對其進行處理。 雖然它是關於語音的,但間接地翻譯成文字,並且由語音產生的文字通過NLP系統來產生結果。

資訊提取

Web抓取是使用python程式碼從網頁中提取資料的常見範例。 這裡它可能不是嚴格基於NLP,但它確實涉及文字處理。 例如,如果只需要提取html頁面中存在的標題,那麼在頁面結構中查詢h1標記,並找到一種方法來僅在這些標記之間提取文字。 這需要來自python的文字處理程式。

垃圾郵件過濾

通過分析主題行中的文字以及訊息的內容,可以識別和消除電子郵件中的垃圾郵件。 由於垃圾郵件通常是批次傳送給許多收件人,即使他們的主題和內容變化很小,也可以進行匹配和標記以將其標記為垃圾郵件。它也需要使用NLTK庫。

語言翻譯

計算機化的語言翻譯在很大程度上依賴於NLP。 隨著線上平台中使用越來越多的語言,將語言從一種語言自動轉換為另一種語言變得必不可少。 這將涉及程式設計以處理翻譯中涉及的語言的詞彙,語法和上下文標記。 同樣,也可以使用NLTK處理這些要求。

情緒分析

要找出對電影表現的整體反應,我們可能需要閱讀來自觀眾的數千條反饋貼文。但也可以通過詞語和句子分析使用積極的負反饋分類自動化。 然後測量正面和負面評論的頻率,以找出觀眾的整體情緒。 這顯然需要分析觀眾所寫的人類語言,NLTK也可以用於處理這樣的文字。