MapReduce

MapReduce 輸出資料排序

討論區: 
MR預設輸出時為以 key 作排序後輸出, 但若相同 key 其 value 並不會進行排序作業, 若需要連同 value 一起排序則需要自己進行, 以下是方法之一, 利用自訂排序類(需繼承WritableComparator)然後透過 job.setSortComparatorClass / job.setGroupingComparatorClass 指定, 但排序對像一樣是 key. 另須注意, 雖然兩個都是ComparatorClass但影響的後續動作卻不一樣
Sort Driver

MapReduce 計數器

討論區: 
MR內建些計數器, 用來紀錄一些運作過程中的資訊提供給我們作參考, 同樣我們可在 mapper, reducer 內加入自己的計數器來紀錄我們需要的資訊以便於相關應用.
► 紀錄儲存(方式有兩種)
public class MaxMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

MapReduce XML資料處理

討論區: 
舊版本的API提供 StreamXmlRecordReader 類來方便我們將特定tag的區段資料傳入給mapper來處理, 新版的則沒看見, 但一樣可以透過 xml parser 類來自行處裡. 使用方式主要在於參數的指定. 使用還有一個需要注意的是 StreamXmlRecordReader 解析後的資料, 以 key 放入整個區段資料.
public class XmlMapReduce {

頁面

Subscribe to RSS - MapReduce
Free Web Hosting