排序
UData查询引擎优化-如何让一条SQL性能提升数倍 | 京东云技术团队
1 UData-解决数据使用的最后一公里 1.1 背景 在大数据的范畴,我们经历了数据产业化的历程,从各个生产系统将数据收集起来,经过实时和离线的数据处理最终汇集在一起,成为我们的主题域数据,下...
Hive执行计划之一文读懂Hive执行计划
合集 - Hive(2)1.Hive执行计划之一文读懂Hive执行计划06-062.Hive执行计划之hive依赖及权限查询和常见使用场景06-07收起目录概述1.hive执行计划的查看2.学会查看Hive执行计划的基本信息3.执行计...
广电用户画像分析之使用SVM预测用户是否挽留
在本篇博客中,我们将介绍如何使用支持向量机(SVM)模型来预测用户是否挽留。我们将使用Spark的ML库来实现这一目标,并通过构建和训练SVM模型,以及对测试集进行预测和评估,来解决这个分类问...
不用太深奥简单解决iOS上拉边界下拉白色空白问题
表现 手指按住屏幕下拉,屏幕顶部会多出一块白色区域。手指按住屏幕上拉,底部多出一块白色区域。 产生原因 在 iOS 中,手指按住屏幕上下拖动,会触发 touchmove 事件。这个事件触发的对象是...
Flink CDC & MongoDB 联合实时数仓的探索实践
摘要:本文整理自 XTransfer 技术专家, Flink CDC Maintainer 孙家宝,在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为四个部分: MongoDB 在实时数仓的探索 MongoDB CDC Con...
治水?智水!天翼云用科技解码智慧水务新发展!
“七下八上”是我国主汛期的重要阶段之一 该时段内北方进入主雨季 南海和西太平洋进入台风活跃期 沿海地区更是深受台风降水和风暴潮等极端天气影响 全国正式进入防汛关键期 一直以来,作为与防...
如何精准预测天气?火山引擎ByteHouse与大地量子这么做
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 伴随着气象技术的发展以及城市气象设施的完善,气象监测服务能力在不断提高,实现短期甚至中长期的气象...
一篇文章带你入门HBase
本文已收录至Github,推荐阅读 ? Java随想录 微信公众号:Java随想录 HBase(Hadoop Database)是一个开源的、分布式的、面向列的NoSQL数据库,它是构建在Hadoop之上的。HBase旨在提供可靠的、...
同程数科基于 Apache Doris 构建统一实时数仓,查询提速数十倍!
本文导读: 同程数科是同程集团旗下的旅游产业金融科技服务平台,为上下游企业和个人消费者提供数字金融科技服务。近年来,随着同程数科业务的不断拓展和用户量的增加,高效可靠的一站式数据中...
Flink 输出算子
摘要:本文主要介绍flink常用的输出算子,和自定义输出算子;可以输出到其他系统、DB或者文件。 简介 Flink 作为数据处理框架,最终还是要把计算处理的结果写入外部存储,为外部应用提供 支持。...
?别再说调试器不好用了!
当人们说“调试器是无用的,使用日志和单元测试更好”时,我怀疑他们中的许多人认为调试器只能在某些行上设置断点,一步一步地通过代码,并检查变量值。虽然任何合理的调试器都可以做到这一切,...
开源免费用|Apache Doris 2.0 推出跨集群数据复制功能
随着企业业务的发展,系统架构趋于复杂、数据规模不断增大,数据分布存储在不同的地域、数据中心或云平台上的现象越发普遍,如何保证数据的可靠性和在线服务的连续性成为人们关注的重点。在此基...
火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 企业如何找到数据、了解数据以及使用数据? 这离不开数据目录的能力。数据目录有着类似于“字典”的作...
字节跳动云原生大数据平台运维管理实践
云原生大数据是大数据平台新一代架构和运行形态。随着字节跳动内部业务的快速增长,传统大数据运维平台的劣势开始逐渐暴露,如组件繁多,安装运维复杂,与底层环境过度耦合;对业务方来说缺少开...
联通 Flink 实时计算平台化运维实践
摘要:本文整理自联通数科实时计算团队负责人、Apache StreamPark Committer 穆纯进在 Flink Forward Asia 2022 平台建设专场的分享,本篇内容主要分为四个部分: 实时计算平台背景介绍 Flink ...
MapReuce 详解与复现, 完成 MIT 6.824(6.5840) Lab1
背景: MapReduce是谷歌于2004年提出的一种用于并行处理海量数据的算法模型。 MapReduce、 GFS、和Bigtable被成为谷歌分布式系统的'三驾马车', 共同开启了工业化的大数据时代,。虽然谷歌公开了Ma...
小米基于 Flink 的实时计算资源治理实践
摘要:本文整理自小米高级软件工程师张蛟,在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分: 发展现状与规模 框架层治理实践 平台层治理实践 未来规划与展望 点击查...
快速上手kettle(三)壶中可以放些啥?
合集 - 快速上手kettle(3)1.快速上手kettle(一)壶之简介05-252.快速上手kettle(二)小试牛刀05-293.快速上手kettle(三)壶中可以放些啥?06-04收起 目录序言一 、kettle这壶能装些啥二、Acces...
通过 docker-compose 快速部署 Apache Ambari 保姆级教程
一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS...
AI重塑千行百业,华为云发布盘古大模型3.0和昇腾AI云服务
【中国,东莞,2023年7月7日】华为开发者大会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新...