MapReduce

MapReduce 自訂檔案輸出格式 (2)

討論區: 
利用提供的 MultipleOutputs 來自定輸出檔名的前置名稱, 原為 part-r-00000 變成 自訂名稱-r-00000 粗體部分將無法變更, 這與透過 OutputFormat 進行自訂的檔名可以完全控制不同. 但做法很簡單, 主要在於變更 reduce的 write 動作
Reducer 重點部份

MapReduce 自定檔案資料輸入

討論區: 
MepReduce 預設使用的輸入格式為 TextInputFormat 其以行為單位. 傳遞給 mapper 進行處理, 若要變更行為則須自行撰寫 InputForm, 以下是直接複製 TextInputFormat 然後變更其資料提交行為. 主要是將 nextKeyValue() 內的 readLine 作替換.
► 建立 InputFormat
由原本傳回的 LineRecordReader 改成自己的 CustomLineRecordReader 然後在 driver 內設置 job.setInputFormatClass(MaxInputFormat.class); 即可改用自己的方式處理讀入與每次傳遞資料.

MapReduce 自訂檔案輸出格式(1)

討論區: 
MepReduce 預設的輸出格式為 TextOutputFormat (輸出檔名為 part-r-00000), 若想變更part 名稱可直接設定參數 mapreduce.output.basename 即可.

但若一reduce 想依傳入的資料分類輸出在不同的檔案內, 則需要自己提供 OutputFormat, 較簡易的方式則可直接繼承 FileOutputFormat 來達成
► 建立自訂格式

頁面

Subscribe to RSS - MapReduce
Free Web Hosting