大数据共0篇 第8页
大数据
DataLeap的全链路智能监控报警实践(三): 系统实现-五八三

DataLeap的全链路智能监控报警实践(三): 系统实现

系统实现 整体架构 基线 管理模块:负责基线创建、更新、删除等操作,管理基线元信息,包括保障任务,承诺时间,余量及报警配置等); 基线 实例生成:系统每天定时触发生成基线实例,生成实例...
admin的头像-五八三admin2年前
060
美团买菜基于 Flink 的实时数仓建设-五八三

美团买菜基于 Flink 的实时数仓建设

摘要:本文整理自美团买菜实时数仓技术负责人严书,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 背景介绍 技术愿景和架构设计 典型场景、挑战与应对 未来规划 ...
admin的头像-五八三admin2年前
080

广电用户画像分析之探索各个表中的记录数和字段phone_no的空值数

首先我们需要搭建大数据环境,详情可参考下文构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置 - 掘金 (juejin.cn) 数据集分析 根据提供的五个数据集,可到此处查看: 链接:pan...
admin的头像-五八三admin2年前
070
如何巧妙解决Flink数据倾斜问题-五八三

如何巧妙解决Flink数据倾斜问题

前言 前文砥砺前行-初学Flink的我如何快速定位并解决数据同步问题解决了数据同步的执行顺序问题后,接着去定位TIDB的问题,但是查了一阵之后发现Flink这块仍然存在问题,很明显的数据倾斜问题,...
admin的头像-五八三admin2年前
040
通过 docker-compose 快速部署 StarRocks 保姆级教程-五八三

通过 docker-compose 快速部署 StarRocks 保姆级教程

一、概述 StarRocks是一个开源的分布式OLAP(在线分析处理)数据库,旨在提供高性能、低延迟的数据分析和查询能力。它最初由中国的猎豹移动公司(Cheetah Mobile)开发,并于2016年开源。 StarR...
admin的头像-五八三admin2年前
070
揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor-五八三

揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor

作者: 藏红 一、引言 阿里云实时计算 Flink 作为一款专业级别的高性能实时大数据处理系统,它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实...
admin的头像-五八三admin2年前
050
相约未名湖畔,百度商业AI技术创新大赛携手北大学子共探AI发展-五八三

相约未名湖畔,百度商业AI技术创新大赛携手北大学子共探AI发展

火热六月,百度商业AI技术创新大赛正在如火如荼的进行,百度商业与高校合作展开全国巡回宣讲会,吸引高校学子参与,激发创新思维,为科技发展注入源源不断的新生力量。6月6日,百度商业AI技术创...
admin的头像-五八三admin2年前
060
一篇文章带你入门HBase-五八三

一篇文章带你入门HBase

本文已收录至Github,推荐阅读 ? Java随想录 微信公众号:Java随想录 HBase(Hadoop Database)是一个开源的、分布式的、面向列的NoSQL数据库,它是构建在Hadoop之上的。HBase旨在提供可靠的、...
admin的头像-五八三admin2年前
0150
构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置-五八三

构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

前言 在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。 简介 安装Hado...
admin的头像-五八三admin2年前
050

Spark实时数据流分析与可视化:实战指南【上进小菜猪大数据系列】

上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 本文介绍了如何利用Apache Spark技术栈进行实时数据流分析,并通过可视化技术将分析结果实时展示。我们将使用Spark Streaming进行...
admin的头像-五八三admin2年前
070
通过 docker-compose 快速部署 Azkaban 保姆级教程-五八三

通过 docker-compose 快速部署 Azkaban 保姆级教程

一、概述 Apache Azkaban 是一个开源的批处理工作流调度系统,用于管理和调度Hadoop生态系统中的任务和作业。 Azkaban 提供了一个直观的Web界面,让用户能够轻松地定义、调度和监控作业流。它支...
admin的头像-五八三admin2年前
030
大数据驱动的实时文本情感分析系统:构建高效准确的情感洞察【上进小菜猪大数据】-五八三

大数据驱动的实时文本情感分析系统:构建高效准确的情感洞察【上进小菜猪大数据】

上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 随着互联网的快速发展和大数据技术的不断成熟,用户推荐系统在各个应用领域变得越来越重要。本文将介绍如何利用大数据技术构建一...
admin的头像-五八三admin2年前
060
PySpark实战指南:大数据处理与分析的终极指南【上进小菜猪大数据】-五八三

PySpark实战指南:大数据处理与分析的终极指南【上进小菜猪大数据】

上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark(Python的Spark API)进行大数据处理和分析的实战技...
admin的头像-五八三admin2年前
060
Hadoop的完全分布式搭建-五八三

Hadoop的完全分布式搭建

集群规划 主机名Hadoop10Hadoop11Hadoop12网络192.168.10.10192.168.10.11192.168.10.12用户hadoop roothadoop roothadoop rootHDFSNameNode DateNodeDateNodeSecondary NameNode DataNodeYARNN...
admin的头像-五八三admin2年前
050

火山引擎 DataLeap:从短视频 APP 实践来看,如何统一数据指标口径?

短视频正在成为越来越多人发现世界的窗口,其背后的创作者生态建设是各大短视频 APP 不可忽视的重要组成部分。 为了激励更多优质内容生产,某短视频 APP 经常面向创作者主办投稿活动,而在复盘...
admin的头像-五八三admin2年前
050
揭秘新一代云数仓技术架构与最佳实践-五八三

揭秘新一代云数仓技术架构与最佳实践

从传统数仓到湖仓一体,历经三十多年发展,技术的浪潮快速迭代,以云原生数仓为中心的现代数据栈时代已然到来。 背后的核心的原因在于,企业正在加速走向数字化、智能化,对数据的应用也提出了...
admin的头像-五八三admin2年前
060
Apache Doris 冷热分层技术如何实现存储成本降低 70%?-五八三

Apache Doris 冷热分层技术如何实现存储成本降低 70%?

在数据分析的实际场景中,冷热数据往往面临着不同的查询频次及响应速度要求。例如在电商订单场景中,用户经常访问近 6 个月的订单,时间较久远的订单访问次数非常少;在行为分析场景中,需支持...
大数据安全体系建设实践和思考-五八三

大数据安全体系建设实践和思考

数据作为数字经济时代核心的生产要素,已经成为经济增长的动力引擎。近几年,随着国家相关数据安全法规的陆续出台,数据安全被提升到了一个新的高度,甚至上升到国家战略层面。大数据作为企业数...
admin的头像-五八三admin2年前
050

Spark消费Kafka数据多线程异常的解决方案

我正在参加「掘金·启航计划」 概述 KafkaConsumer is not safe for multi-threaded access的报错通常是因为KafkaConsumer被多个线程共享导致的。在Kafka 2.4版本的源码中我看到该特性仍然不被...
admin的头像-五八三admin2年前
070
揭秘阿里云Flink智能诊断利器——Fllink Job Advisor-五八三

揭秘阿里云Flink智能诊断利器——Fllink Job Advisor

引言 阿里云实时计算Flink作为一款专业级别的高性能实时大数据处理系统,它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实时机器学习等多样化...
admin的头像-五八三admin2年前
070