排序
MaxCompute中如何处理异常字符
背景 在处理数据时,当业务数据同步至MaxCompute后,会产生一些含异常字符的脏数据,比如字段中包含了一个不可见字符,在DataWorks中显示不出来,但在BI界面又会显示成其他字符,影响整体观感。...
火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 企业如何找到数据、了解数据以及使用数据? 这离不开数据目录的能力。数据目录有着类似于“字典”的作...
大数据分析与机器学习:技术深度与实例解析【上进小菜猪大数据系列】
上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 大数据分析与机器学习已成为当今商业决策和科学研究中的关键组成部分。本文将深入探讨大数据技术的背景和原则,并结合实例介绍一...
【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)
一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS...
百亿大表 Join 提速 300倍!Apache Doris 在约苗数据平台的实时数仓建设实践
本文导读: 约苗平台是国内目前最大的成人预防接种管理服务平台。近年来,随着各功能的不断完善,用户数量不断增多,越来越多注册数据、疫苗类别点击数据、页面浏览时长等数据被生成和积累,如...
DataLeap的全链路智能监控报警实践(三): 系统实现
系统实现 整体架构 基线 管理模块:负责基线创建、更新、删除等操作,管理基线元信息,包括保障任务,承诺时间,余量及报警配置等); 基线 实例生成:系统每天定时触发生成基线实例,生成实例...
美团买菜基于 Flink 的实时数仓建设
摘要:本文整理自美团买菜实时数仓技术负责人严书,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 背景介绍 技术愿景和架构设计 典型场景、挑战与应对 未来规划 ...
广电用户画像分析之探索各个表中的记录数和字段phone_no的空值数
首先我们需要搭建大数据环境,详情可参考下文构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置 - 掘金 (juejin.cn) 数据集分析 根据提供的五个数据集,可到此处查看: 链接:pan...
如何巧妙解决Flink数据倾斜问题
前言 前文砥砺前行-初学Flink的我如何快速定位并解决数据同步问题解决了数据同步的执行顺序问题后,接着去定位TIDB的问题,但是查了一阵之后发现Flink这块仍然存在问题,很明显的数据倾斜问题,...
通过 docker-compose 快速部署 StarRocks 保姆级教程
一、概述 StarRocks是一个开源的分布式OLAP(在线分析处理)数据库,旨在提供高性能、低延迟的数据分析和查询能力。它最初由中国的猎豹移动公司(Cheetah Mobile)开发,并于2016年开源。 StarR...
揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor
作者: 藏红 一、引言 阿里云实时计算 Flink 作为一款专业级别的高性能实时大数据处理系统,它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实...
相约未名湖畔,百度商业AI技术创新大赛携手北大学子共探AI发展
火热六月,百度商业AI技术创新大赛正在如火如荼的进行,百度商业与高校合作展开全国巡回宣讲会,吸引高校学子参与,激发创新思维,为科技发展注入源源不断的新生力量。6月6日,百度商业AI技术创...
一篇文章带你入门HBase
本文已收录至Github,推荐阅读 ? Java随想录 微信公众号:Java随想录 HBase(Hadoop Database)是一个开源的、分布式的、面向列的NoSQL数据库,它是构建在Hadoop之上的。HBase旨在提供可靠的、...
构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置
前言 在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。 简介 安装Hado...
Spark实时数据流分析与可视化:实战指南【上进小菜猪大数据系列】
上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 本文介绍了如何利用Apache Spark技术栈进行实时数据流分析,并通过可视化技术将分析结果实时展示。我们将使用Spark Streaming进行...
通过 docker-compose 快速部署 Azkaban 保姆级教程
一、概述 Apache Azkaban 是一个开源的批处理工作流调度系统,用于管理和调度Hadoop生态系统中的任务和作业。 Azkaban 提供了一个直观的Web界面,让用户能够轻松地定义、调度和监控作业流。它支...
大数据驱动的实时文本情感分析系统:构建高效准确的情感洞察【上进小菜猪大数据】
上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 随着互联网的快速发展和大数据技术的不断成熟,用户推荐系统在各个应用领域变得越来越重要。本文将介绍如何利用大数据技术构建一...
Apache Doris 冷热分层技术如何实现存储成本降低 70%?
在数据分析的实际场景中,冷热数据往往面临着不同的查询频次及响应速度要求。例如在电商订单场景中,用户经常访问近 6 个月的订单,时间较久远的订单访问次数非常少;在行为分析场景中,需支持...
Hadoop的完全分布式搭建
集群规划 主机名Hadoop10Hadoop11Hadoop12网络192.168.10.10192.168.10.11192.168.10.12用户hadoop roothadoop roothadoop rootHDFSNameNode DateNodeDateNodeSecondary NameNode DataNodeYARNN...
用一杯星巴克的钱,训练自己私有化的ChatGPT
文章摘要:用一杯星巴克的钱,自己动手2小时的时间,就可以拥有自己训练的开源大模型,并可以根据不同的训练数据方向加强各种不同的技能,医疗、编程、炒股、恋爱,让你的大模型更“懂”你….....