TIKA環境組態


本章將指導完成設定Apache Tika在Windows和Linux的組態過程。使用者管理是必要的,同時安裝了Apache Tika。

系統要求

JDK Java SE 2 JDK 1.6 或以上
記憶體 1 GB RAM (推薦)
硬碟空間 無最小要求
作業系統版本 Windows XP 或以上, Linux

第1步:驗證安裝Java

為了驗證Java安裝,開啟控制台並執行下面的Java命令。

OS 任務 命令
Windows 開啟命令控制台 \>java –version
Linux 開啟命令終端 $java –version

如果Java已經正確地在您的系統已經安裝,那麼應該得到以下輸出之一,具體取決於您所使用的平台上。

OS 輸出
Windows

Java version "1.7.0_60"

Java (TM) SE Run Time Environment (build 1.7.0_60-b19)

Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mixed mode)

Lunix

java version "1.7.0_25"

Open JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)

Open JDK 64-Bit Server VM (build 23.7-b01, mixed mode)

第2步:設定Java環境

設定JAVA_HOME環境變數指向到安裝在機器上的Java基本目錄的位置。例如,

OS 輸出
Windows 設定環境變數 JAVA_HOME to C:\ProgramFiles\java\jdk1.7.0_60
Linux export JAVA_HOME=/usr/local/java-current

附加Java編譯器的位置到系統路徑的完整路徑。

OS 輸出
Windows Append the String; C:\Program Files\Java\jdk1.7.0_60\bin to the end of the system variable PATH.
Linux export PATH=$PATH:$JAVA_HOME/bin/

驗證命令java版本,命令提示字元如上所述。

第3步:設定Apache Tika環境

可以在自己的環境中通過使用整合Apache Tika : 

  • 命令列,
  • Tika API,
  • Tika(CLI)的命令列介面,
  • Tika的圖形化使用者介面(GUI),或
  • 原始碼

對於任何一種方法,首先,必須下載的Tika原始碼。

Tika的原始碼在 http://Tika.apache.org/download.htmll,在那裡找到兩個連結:

apache-tika-1.6-src.zip: 它包含的Tika的原始碼以及 Tika -app-1.6.jar: 它是一個包含Tika應用程式的JAR檔案。

下載這兩個檔案。Tika的官方網站的快照如下所示。

Tika Environment

下載檔案後,設定類路徑的JAR檔案 tika-app-1.6.jar。新增 jar 檔案的完整路徑,如圖表所示。

OS Output
Windows 新增字串 “C:\jars\Tika-app-1.6.jar” 到使用者環境變數 CLASSPATH
Linux

Export CLASSPATH=$CLASSPATH:

/usr/share/jars/Tika-app-1.6.tar:

Apache提供Tika應用程式,使用Eclipse的圖形化使用者介面(GUI)應用程式。

使用Eclipse構建Tika-Maven

m2e Release
  • 挑選的最新版本,並儲存在URL網址的p2列的路徑。

  • 現在重新存取eclipse,在選單欄中,單擊幫助,然後從下拉式選單中選擇安裝新軟體

Eclipse
  • 單擊 Add 按鈕,輸入任何想要的名稱,因為它是可選的。現在貼在位置欄位中儲存的 URL。

  • 一個新的外掛選擇在上一步中新增的名字,選中核取方塊在它前面,然後單擊下一步 Next。

Install
  • 繼續安裝。完成後,重新啟動Eclipse。

  • 現在,右鍵單擊該專案,並在組態選項,選擇Convert to Maven專案。

  • 將出現建立一個新的POM新的嚮導。輸入組ID為org.apache.tika,進入Tika的最新版本,選擇jar 包,然後單擊Finish。

Maven專案已成功安裝,並且專案轉化成Maven。現在,必須組態pom.xml檔案。

組態XML檔案

可以通過Tika Maven的依賴 http://mvnrepository.com/artifact/org.apache.tika

下面顯示的是Apache Tika完整的Maven依賴。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>