国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

利用Mahout實(shí)現(xiàn)在Hadoop上運(yùn)行K-Means算法

2019-11-14 16:42:18
字體:
供稿:網(wǎng)友

利用Mahout實(shí)現(xiàn)在Hadoop上運(yùn)行K-Means算法

  一、介紹Mahout

    Mahout是Apache下的開源機(jī)器學(xué)習(xí)軟件包,目前實(shí)現(xiàn)的機(jī)器學(xué)習(xí)算法主要包含有協(xié)同過濾/推薦引擎聚類分類三個部分。Mahout從設(shè)計開始就旨在建立可擴(kuò)展的機(jī)器學(xué)習(xí)軟件包,用于處理大數(shù)據(jù)機(jī)器學(xué)習(xí)的問題,當(dāng)你正在研究的數(shù)據(jù)量大到不能在一臺機(jī)器上運(yùn)行時,就可以選擇使用Mahout,讓你的數(shù)據(jù)在Hadoop集群的進(jìn)行分析。Mahout某些部分的實(shí)現(xiàn)直接創(chuàng)建在Hadoop之上,這就使得其具有進(jìn)行大數(shù)據(jù)處理的能力,也是Mahout最大的優(yōu)勢所在。相比較于Weka,RapidMiner等圖形化的機(jī)器學(xué)習(xí)軟件,Mahout只提供機(jī)器學(xué)習(xí)的程序包(library),不提供用戶圖形界面,并且Mahout并不包含所有的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn),這一點(diǎn)可以算得上是她的一個劣勢,但前面提到過Mahout并不是“又一個機(jī)器學(xué)習(xí)軟件”,而是要成為一個“可擴(kuò)展的用于處理大數(shù)據(jù)的機(jī)器學(xué)習(xí)軟件”,但是我相信會有越來越多的機(jī)器學(xué)習(xí)算法會在Mahout上面實(shí)現(xiàn)。[1]

    二、介紹K-Means

    https://cwiki.apache.org/confluence/display/MAHOUT/K-Means+Clustering#,這是Apache官網(wǎng)上的算法描述,簡單來說就是基于劃分的聚類算法,把n個對象分為k個簇,以使簇內(nèi)具有較高的相似度。相似度的計算根據(jù)一個簇中對象的平均值來進(jìn)行。[2]

    三、在Hadoop上實(shí)現(xiàn)運(yùn)行

    1,實(shí)驗(yàn)環(huán)境

        ①hadoop集群環(huán)境:1.2.1 一個Master,兩個Slaves,在開始運(yùn)行kmeans時啟動hadoop

        ②操作系統(tǒng):所有機(jī)器的系統(tǒng)均為Ubuntu12.04

        ③Mahout版本:采用的是0.5版

    2,數(shù)據(jù)準(zhǔn)備

        數(shù)據(jù)采用的是http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,這是網(wǎng)上提供的一個比較不錯是數(shù)據(jù)源。然后用指令 hadoop fs -put /home/hadoop/Desktop/data testdata,將在我桌面的文件data上傳到HDFS的testdata目錄下,這里為什么是testdata,我也正在思考,因?yàn)槲冶緛硎巧蟼鞯絠nput里,但是運(yùn)行時提示could not find ….user/testdata之類的,所以現(xiàn)改為了testdata。

    3,運(yùn)行

        ①配置Mahout環(huán)境:在Apache官網(wǎng)下載Mahout的版本,我選擇的是0.5,下載地址:https://cwiki.apache.org/confluence/display/MAHOUT/Downloads。然后解壓到你指定的目錄,將此目錄路徑寫入/etc/PRofile,添加如下語句:

export MAHOUT_HOME=/home/hadoop/hadoop-1.2.1/mahout-distribution-0.5

export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.2.1/conf

export PATH=$PATH:/home/hadoop/hadoop-1.2.1/bin:$MAHOUT_HOME/bin

然后執(zhí)行 source /etc/profile。在mahout目錄下執(zhí)行bin/mahout命令,檢測系統(tǒng)是否安裝成功。如圖:

Screenshot from 2013-11-21 21_54_04

注:此處修改環(huán)境變量有些網(wǎng)上提示是/etc/bash.bashrc,我也試著修改過,但是發(fā)現(xiàn)在我這里使環(huán)境變量生效的是profile。

②運(yùn)行Mahout里自帶的K-Means算法,bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job,這里啟動后遇到了一點(diǎn)問題,提示Could not find math.vector,后來參考這篇http://jerrylead.VEvb.com/blog/1188929日志解決。

    4,結(jié)果

       在我的環(huán)境下運(yùn)行5分鐘左右,最后生成一個文件,如圖

Screenshot from 2013-11-21 21_09_41

    四、總結(jié)

Mahout是一個很強(qiáng)大的數(shù)據(jù)挖掘工具,需要進(jìn)行更深層的了解。

 

最新產(chǎn)品代理加盟


發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 中超| 铜梁县| 伊通| 宿迁市| 衡水市| 田林县| 三河市| 镶黄旗| 九台市| 昌宁县| 西青区| 洪洞县| 金塔县| 安宁市| 五河县| 康平县| 白玉县| 阿巴嘎旗| 江西省| 图片| 巴里| 陆河县| 白朗县| 阿拉善盟| 铁力市| 中方县| 思茅市| 旅游| 崇信县| 伊金霍洛旗| 怀仁县| 新泰市| 邯郸县| 灵石县| 武胜县| 涟源市| 象州县| 五原县| 周宁县| 东安县| 星子县|