大数据共0篇 第7页
大数据
火山引擎 Iceberg 数据湖的应用与实践-五八三

火山引擎 Iceberg 数据湖的应用与实践

在云原生计算时代,云存储使得海量数据能以低成本进行存储,但是这也给如何访问、管理和使用这些云上的数据提出了挑战。而 Iceberg 作为一种云原生的表格式,可以很好地应对这些挑战。本文将介...
admin的头像-五八三admin2年前
0140
CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新-五八三

CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新

摘要:HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。 本文分享自华为云社区《CSR格...
admin的头像-五八三admin2年前
0150
Apache DolphinScheduler(海豚调度系统)介绍与环境部署-五八三

Apache DolphinScheduler(海豚调度系统)介绍与环境部署

一、概述 Apache DolphinScheduler(简称DolphinScheduler)是一种开源的、分布式的、易于使用的大数据工作流调度系统。它旨在为大数据处理提供一个可靠、高效和可扩展的调度解决方案。 Dolphin...
admin的头像-五八三admin2年前
0140
Flink 流批一体在 Shopee 的大规模实践-五八三

Flink 流批一体在 Shopee 的大规模实践

摘要:本文整理自 Shopee 研发专家李明昆,在 Flink Forward Asia 2022 流批一体专场的分享。本篇内容主要分为四个部分: 流批一体在 Shopee 的应用场景 批处理能力的生产优化 与离线生态的完全...
admin的头像-五八三admin2年前
080

Apache Doris 1.2.5 版本正式发布

亲爱的社区小伙伴们,我们很高兴地宣布,Apache Doris 于 2023 年 6 月 19 日迎来 1.2.5 版本的正式发布!在 1.2.5 版本中,Doris 团队已经修复了自 1.2.4 版本发布以来近 210 个问题或性能改进...
admin的头像-五八三admin2年前
050
一种实现Spring动态数据源切换的方法 | 京东云技术团队-五八三

一种实现Spring动态数据源切换的方法 | 京东云技术团队

1 目标 不在现有查询代码逻辑上做任何改动,实现dao维度的数据源切换(即表维度) 2 使用场景 节约bdp的集群资源。接入新的宽表时,通常uat验证后就会停止集群释放资源,在对应的查询服务器uat...
admin的头像-五八三admin2年前
050
通过 docker-compose 快速部署 Apache Ambari 保姆级教程-五八三

通过 docker-compose 快速部署 Apache Ambari 保姆级教程

一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS...
admin的头像-五八三admin2年前
090

广电用户画像分析之使用SVM预测用户是否挽留

在本篇博客中,我们将介绍如何使用支持向量机(SVM)模型来预测用户是否挽留。我们将使用Spark的ML库来实现这一目标,并通过构建和训练SVM模型,以及对测试集进行预测和评估,来解决这个分类问...
admin的头像-五八三admin2年前
0100
广电用户画像分析之根据用户行为数据进行筛选与标签添加-五八三

广电用户画像分析之根据用户行为数据进行筛选与标签添加

在数据处理和分析领域,我们经常需要根据用户的行为数据进行筛选和标签添加,以便更好地理解用户行为和偏好。在本篇博客中,我们将介绍两个示例,展示如何根据用户的收视行为数据和订单信息进行...
admin的头像-五八三admin2年前
040
数仓架构“瘦身”,Hologres 5000CU时免费试用-五八三

数仓架构“瘦身”,Hologres 5000CU时免费试用

Hologres基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个大数据计算引擎中,并提供快速的...
admin的头像-五八三admin2年前
0110

广电用户画像分析之根据客户消费内容添加标签

本篇博客将介绍如何添加用户消费标签和用户消费等级标签. 建议阅读之前先阅读数据预处理的博客再读本篇博客. 相关前提: 广电用户画像分析之数据基本分析与预处理 - 掘金 (juejin.cn) 根据客户...
admin的头像-五八三admin2年前
030
基于Spline的数据血缘解析-五八三

基于Spline的数据血缘解析

一、前言 什么是数据血缘?数据血缘是数据产生、加工、转化,数据之间产生的关系。随着公司业务发展,通过数据血缘,能知道数据的流向,以便我们更好地进行数据治理。 二、为什么选择 Spline? ...
admin的头像-五八三admin2年前
070
Flink 转换算子(转算数据)-五八三

Flink 转换算子(转算数据)

摘要:本文主要描述flink在接收到上游数据后,使用转换算子,可以如何进行数据转换,得到我们想要的数据,章节主要分为基本转换算子、聚合算子、用户自定义函数、物理分区算子、分流、合流。 基...
admin的头像-五八三admin2年前
040
之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?-五八三

之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?

今天,高性能计算结合人工智能技术正在推动科研创新。例如通过破解水稻基因密码推动作物育种从“试验选优”向“计算选优”发展,在医药领域快速分析分子与蛋白之间的相互作用,发现潜在的能够有...

广电用户画像分析之数据基本分析与预处理

引言 数据分析在今天的数字化时代变得越来越重要,尤其是对于媒体行业来说。了解用户的收视行为和对媒体的偏好可以帮助媒体公司制定更有效的营销策略和优化内容推荐。本文将介绍如何使用Spark进...
admin的头像-五八三admin2年前
020
MaxCompute中如何处理异常字符-五八三

MaxCompute中如何处理异常字符

背景 在处理数据时,当业务数据同步至MaxCompute后,会产生一些含异常字符的脏数据,比如字段中包含了一个不可见字符,在DataWorks中显示不出来,但在BI界面又会显示成其他字符,影响整体观感。...
admin的头像-五八三admin2年前
060
火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?-五八三

火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 企业如何找到数据、了解数据以及使用数据? 这离不开数据目录的能力。数据目录有着类似于“字典”的作...
admin的头像-五八三admin2年前
030
大数据分析与机器学习:技术深度与实例解析【上进小菜猪大数据系列】-五八三

大数据分析与机器学习:技术深度与实例解析【上进小菜猪大数据系列】

上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 大数据分析与机器学习已成为当今商业决策和科学研究中的关键组成部分。本文将深入探讨大数据技术的背景和原则,并结合实例介绍一...
admin的头像-五八三admin2年前
0120
【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)-五八三

【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)

一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS...
admin的头像-五八三admin2年前
0110
百亿大表 Join 提速 300倍!Apache Doris 在约苗数据平台的实时数仓建设实践-五八三

百亿大表 Join 提速 300倍!Apache Doris 在约苗数据平台的实时数仓建设实践

本文导读: 约苗平台是国内目前最大的成人预防接种管理服务平台。近年来,随着各功能的不断完善,用户数量不断增多,越来越多注册数据、疫苗类别点击数据、页面浏览时长等数据被生成和积累,如...
admin的头像-五八三admin2年前
040