大数据分析的案例、方法与挑战
DTCC2012
2012.4
中山大学海量数据与云计算研究中心 黄志洪
数据分析者面临的问题
数据日趋庞大,无论是入库和查询,½出现性½瓶颈
用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高
½用的模型越来越复杂,计算量指数级上升
传统技½无法应对大数据:R、SAS、SQL
2012.4
中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
2
场景介绍
信令监测是做什么的?
2012.4
中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
½系架构
数据库服务器:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点用于入
库,另外一个节点用于查询
存储:HP虚拟化存储,>1000个盘
入库节点
入库方式——常规路径sqlldr
大量½用表分区设计
数据量:每小时写入200G左右数据磁盘物理写大约
为450G每小时
问题:1
入库瓶颈
2
查询瓶颈
2012.4
中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
数据库设计
物理上采用ASM
大表全部按时间分区,开始时按小时分区,½由于数据量庞大,后来改成15分钟分区
,最后变成每分钟切换1个分区
采用sqlldr方式入库
2012.4
中山大学海量数据与云计算研究中心 黄志洪
DTCC2012
5
评论