大数据基准 TPC-DS 研究(1) - 动机


风晓
风晓 2023-12-30 13:45:26 54297
分类专栏: 资讯

缘由

最近经常看到阿里云的 AnalyticDB / EMR 的公关稿, 说是打破了 TPC-DS 的世界纪录, 那么这个 TPC-DS 是什么呢? 于是打算写一个系列, 深度的解读一下它.

为什么需要基准

假设你是一个公司的老板, 公司历史上积累了很多的数据(单机容量已经放不下), 现在想采购一个系统来对这些数据进行一些分析挖掘(主要包含四大场景: 周期报表/ad-hoc查询/迭代式查询/数据挖掘), 于是到市场上问询, 发现市场上有许多产品都可以提供分析能力, 包括:

  • Impala
  • Presto
  • SparkSQL
  • HAWQ
  • ClickHouse
  • GreenPlum
  • FlinkSQL
  • Druid
  • Kylin
  • Alibaba Cloud E-MapReduce
  • Alibaba Cloud AnalyticDB
  • SAP HANA
  • Snowflake
  • Amazon Redshift
  • Google BigQuery
  • (其它300+ DB 引擎)

有点眼花缭乱, 这时应该如何选择呢?

  • (常规的思路) 买服务是为了给自己业务使用, 先把自己业务抽象出来, 然后分别使用这些系统进行测试, 看看哪家效果最好. 会带来如下几个问题:
    • 将自己的业务抽象会带来额外的工作开销
      • 需要涵盖多种场景: 周期报表/ad-hoc查询/迭代式查询/数据挖掘
      • 需要考虑通用性: 防止对已有业务过度优化, 而导致新业务扩展困难
    • 各个引擎服务最优化条件下需要的机型配置不同
      • 有些需要大内存/有些要求上云/有些要求必须使用自己定制的硬件
    • 各个引擎服务最优化条件下需要的参数不同
      • 需要针对业务场景定制引擎的运行参数
    • 各个引擎的语法不同
      • 有些是遵守 SQL 标准, 有些是 NoSQL / 自定义语法, 需要根据场景做定制

针对300多个引擎进行测试, 需要极大的人力开销, 并且还可能遗漏部分场景.

如果有人针对最通用的商用场景做抽象, 提出一套通用的测试标准, 各个数据引擎都主动或被动的分别经历了这个测试, 并且出具了各自的测试报告(包括各场景下性能表现, 被测系统的详细配置、软硬件和包含N年维护费在内的总价格), 并且这个测试报告被一个值得信任的组织严格审查过, 那该多好? 于是TPC-DS 应运而生.

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=32631
赞同 0
评论 0 条
风晓L1
粉丝 1 发表 522 + 关注 私信
上周热门
WPS City Talk · 校招西安站来了!  3757
服贸会|范渊荣获年度创新领军人物!王欣分享安恒信息“AI+安全”探索  3683
有在找工作的IT人吗?  3646
字节跳动“安全范儿”高校挑战赛来袭!三大赛道,赢 80 万专项基金!  3605
阿B秋招线下宣讲行程来啦,速速报名!  3599
字节跳动校招 | 电商业务 2025 校园招聘进行中!五大职类热招,等你来投!  3590
麒麟天御安全域管平台升级!为企业管理保驾护航  3575
烽火通信2025届校园招聘宣讲行程发布!!  3411
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  3372
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  3343
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
如何玩转信创开放社区—从小白进阶到专家 15
信创开放社区邀请他人注册的具体步骤如下 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!