代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Java
】
Java API 读取HDFS目录下的所有文件
作者:
涌
/ 发布于
2017/6/2
/
899
/** * 获取1号店生鲜食品的分类id字符串 * @param filePath * @return */ public String getYHDSXCategoryIdStr(String filePath) { final String DELIMITER = new String(new byte[]{1}); final String INNER_DELIMITER = ","; // 遍历目录下的所有文件 BufferedReader br = null; try { FileSystem fs = FileSystem.get(new Configuration()); FileStatus[] status = fs.listStatus(new Path(filePath)); for (FileStatus file : status) { if (!file.getPath().getName().startsWith("part-")) { continue; } FSDataInputStream inputStream = fs.open(file.getPath()); br = new BufferedReader(new InputStreamReader(inputStream)); String line = null; while (null != (line = br.readLine())) { String[] strs = line.split(DELIMITER); String categoryId = strs[0]; String categorySearchName = strs[9]; if (-1 != categorySearchName.indexOf("0-956955")) { yhdsxCategoryIdStr += (categoryId + INNER_DELIMITER); } }// end of while } } catch (IOException e) { e.printStackTrace(); } finally { try { br.close(); } catch (IOException e) { e.printStackTrace(); } } return yhdsxCategoryIdStr; } HDFS上的目录、文件: -bash-3.2$ hadoop fs -ls /user/hive/warehouse/category Found 2 items -rw-r--r-- 2 basicdata supergroup 0 2014-08-18 01:05 /user/hive/warehouse/category/_SUCCESS -rw-r--r-- 2 basicdata supergroup 1117233 2014-08-18 01:05 /user/hive/warehouse/category/part-m-00000 文件内容: -bash-3.2$ hadoop fs -cat /user/hive/warehouse/category/part-* | more 52880000052880杂粮组合51621010-5135-5162-5288:食品-粮油-杂粮组合011 9726780009726787茶具19650290040-950340-965029-972678:家居-餐具水具-茶具1011 9701550009701557菲士康196046510null0-960464-960465-970155:隐形眼镜(药网)-普通隐形眼镜-菲士康1011 9702350009702356生活服务000180-970235:生活服务011 9702360009702367SIM卡9635241030-957328-963524-970236:手机通讯/数码电器-运营商-SIM卡011 9737840009737842鞋包配饰97377810null0-960665-960768-973775-973778-973784:1号礼品中心-时尚创意礼品-定制品-个性定制-鞋包配饰011 5315T602个人清洁5183190null0-5134-5183-5315:厨卫清洁-清洁剂-个人清洁111 5316T603家用清洁5183190null0-5134-5183-5316:厨卫清洁-清洁剂-家用清洁111 5317UD02蛋制品1516110null0-5135-5161-5317:食品饮料-腌制品1-蛋制品1111 5318UD030肉制品5161180null0-5135-5161-5318:食品饮料-腌制品-肉制品111
试试其它关键字
同语言下
.
List 切割成几份 工具类
.
一行一行读取txt的内容
.
Java PDF转换成图片并输出给前台展示
.
java 多线程框架
.
double类型如果小数点后为零则显示整数否则保留两位小
.
将图片转换为Base64字符串公共类抽取
.
sqlParser 处理SQL(增删改查) 替换schema 用于多租户
.
JAVA 月份中的第几周处理 1-7属于第一周 依次类推 29-
.
java计算两个经纬度之间的距离
.
输入时间参数计算年龄
可能有用的
.
List 切割成几份 工具类
.
一行一行读取txt的内容
.
Java PDF转换成图片并输出给前台展示
.
java 多线程框架
.
double类型如果小数点后为零则显示整数否则保留两位小
.
将图片转换为Base64字符串公共类抽取
.
sqlParser 处理SQL(增删改查) 替换schema 用于多租户
.
JAVA 月份中的第几周处理 1-7属于第一周 依次类推 29-
.
java计算两个经纬度之间的距离
.
输入时间参数计算年龄
涌
贡献的其它代码
(
10
)
.
iptables自动屏蔽访问网站频繁的IP
.
实现数组的反转
.
判断一个点是否在一个复杂多边形的内部
.
杀死某个任务 不在hive shell中执行
.
Java API 读取HDFS目录下的所有文件
.
判断一个字符串中是否包含另一个字符串数组或列表中的
.
获取汉字首字母
.
KeyWordHelper-关键字提取类
.
视频
.
查询所有表的外键约束
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3