Apache Spark 是一個用於大規模分析數據和機器學習處理的開源計算框架。 支持scala、R、Python、Java等多種首選語言。為 Spark Streaming、GraphX、SQL 和 MLLib 提供用於圖形處理的高級工具。
在本文中,了解如何在 ubuntu 上安裝和配置 Apache Spark。我們使用 Ubuntu 20.04 LTS 發布系統來說明本文中的過程。 在安裝 Apache Spark 之前,您需要在系統上安裝 Scala 和 Scala。
安裝 Scala
如果未安裝 Java 和 Scala,您可以按照以下步驟安裝它們。
對於 Java,您可以安裝開放的 JDK 8 或安裝您喜歡的版本。
$ sudo apt update
$ sudo apt install openjdk-8-jdk
如果需要檢查 Java 安裝,可以運行以下命令:
$ java -version
至於 Scala,Scala 是一種面向對象的函數式編程語言,它們都被濃縮為一個。 Scala 與 JavaScript 運行時和 JVM 的兼容性使您可以輕鬆訪問大型庫生態系統,以幫助您構建高性能係統。通過運行以下 apt 命令安裝 scala:
$ sudo apt update
$ sudo apt install scala
現在通過檢查版本來驗證安裝。
$ scala -version
安裝 Apache Spark
沒有用於安裝 apache-spark 的官方 apt 存儲庫,但您可以從官方站點預編譯二進製文件。使用以下 wget 命令和鏈接下載二進製文件。
$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
然後使用以下 tar 命令提取下載的二進製文件:
$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz
最後,將提取的 spark 文件移動到 /opt 目錄。
$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark
設置環境變量
.profile 文件中的 spark 路徑變量,必須設置該變量才能使命令在沒有完整路徑的情況下工作。 您可以使用 echo 命令或在您喜歡的文本編輯器中手動執行此操作。一種快速的方法是運行 echo 命令:
$ echo " SPARK_HOME=/opt/spark" >> ~/.profile
$ echo " PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo " PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
如您所見,>> 操作使用 echo 將路徑變量附加到 .profile 文件的末尾。
然後運行以下命令以應用新的環境變量更改:
$ source ~/.profile
部署 Apache Spark
現在,您已經使用以下命令設置了運行主服務和工作服務的所有內容。
$ start-master.sh
如您所見,spark master 服務正在端口 8080 上運行。如果您在端口 8080 上指向 localhost,則這是 spark 的默認端口。 瀏覽 URL 時,您可能會看到以下類型的用戶界面:剛啟動主服務可能找不到正在運行的工作處理器。啟動 Worker 服務後,會列出新節點,如下例所示。
如果您在瀏覽器中打開母版頁,您將看到 spark master spark://HOST:PORT URL 以通過此主機連接到 worker 服務。在我當前的主機上,spark master URL 是 spark://Linuxways.localdomain:7077,所以我需要運行以下命令來啟動工作進程。
$ start-workers.sh <spark-master-url>
通過運行以下命令運行工作器服務:
$ start-workers.sh spark://Linuxways.localdomain:7077
或者,您可以通過運行以下命令來使用 spark-shell:
$ spark-shell
結論是
我希望你已經從這篇文章中學會瞭如何在 ubuntu 上安裝和配置 apache spark。在本文中,我試圖使該過程盡可能簡單。