大数据共0篇 第7页
大数据
同程数科基于 Apache Doris 构建统一实时数仓,查询提速数十倍!-五八三

同程数科基于 Apache Doris 构建统一实时数仓,查询提速数十倍!

本文导读: 同程数科是同程集团旗下的旅游产业金融科技服务平台,为上下游企业和个人消费者提供数字金融科技服务。近年来,随着同程数科业务的不断拓展和用户量的增加,高效可靠的一站式数据中...
admin的头像-五八三admin2年前
030
关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力-五八三

关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力

在微软、百度、阿里、腾讯、小米纷纷宣布入局之后,ChatGPT 再次被送上科技头条。 图源:Financial Times 互联网公司们的争相表态,让大家似乎看到了 ChatGPT 落地应用的曙光。相比去年底,关于...
admin的头像-五八三admin2年前
0190
中原银行 OLAP 架构实时化演进-五八三

中原银行 OLAP 架构实时化演进

摘要:本文整理自中原银行数据信息部杜威科,在 Flink Forward Asia 2022 行业案例专场的分享。本篇内容主要分为四个部分: OLAP 实时化建设背景 OLAP 全链路实时化 OLAP 实时化探索 未来探索方...
admin的头像-五八三admin2年前
0120
通过 docker-compose 快速部署 DolphinScheduler 保姆级教程-五八三

通过 docker-compose 快速部署 DolphinScheduler 保姆级教程

一、概述 Apache DolphinScheduler(简称DolphinScheduler)是一种开源的、分布式的、易于使用的大数据工作流调度系统。它旨在为大数据处理提供一个可靠、高效和可扩展的调度解决方案。 这里只...
admin的头像-五八三admin2年前
070
CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新-五八三

CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新

摘要:HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。 本文分享自华为云社区《CSR格...
admin的头像-五八三admin2年前
0150
火山引擎 Iceberg 数据湖的应用与实践-五八三

火山引擎 Iceberg 数据湖的应用与实践

在云原生计算时代,云存储使得海量数据能以低成本进行存储,但是这也给如何访问、管理和使用这些云上的数据提出了挑战。而 Iceberg 作为一种云原生的表格式,可以很好地应对这些挑战。本文将介...
admin的头像-五八三admin2年前
0140
Flink 流批一体在 Shopee 的大规模实践-五八三

Flink 流批一体在 Shopee 的大规模实践

摘要:本文整理自 Shopee 研发专家李明昆,在 Flink Forward Asia 2022 流批一体专场的分享。本篇内容主要分为四个部分: 流批一体在 Shopee 的应用场景 批处理能力的生产优化 与离线生态的完全...
admin的头像-五八三admin2年前
090
Apache DolphinScheduler(海豚调度系统)介绍与环境部署-五八三

Apache DolphinScheduler(海豚调度系统)介绍与环境部署

一、概述 Apache DolphinScheduler(简称DolphinScheduler)是一种开源的、分布式的、易于使用的大数据工作流调度系统。它旨在为大数据处理提供一个可靠、高效和可扩展的调度解决方案。 Dolphin...
admin的头像-五八三admin2年前
0140

Apache Doris 1.2.5 版本正式发布

亲爱的社区小伙伴们,我们很高兴地宣布,Apache Doris 于 2023 年 6 月 19 日迎来 1.2.5 版本的正式发布!在 1.2.5 版本中,Doris 团队已经修复了自 1.2.4 版本发布以来近 210 个问题或性能改进...
admin的头像-五八三admin2年前
050
一种实现Spring动态数据源切换的方法 | 京东云技术团队-五八三

一种实现Spring动态数据源切换的方法 | 京东云技术团队

1 目标 不在现有查询代码逻辑上做任何改动,实现dao维度的数据源切换(即表维度) 2 使用场景 节约bdp的集群资源。接入新的宽表时,通常uat验证后就会停止集群释放资源,在对应的查询服务器uat...
admin的头像-五八三admin2年前
050
通过 docker-compose 快速部署 Apache Ambari 保姆级教程-五八三

通过 docker-compose 快速部署 Apache Ambari 保姆级教程

一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已支持大多数 Hadoop 组件,包括 HDFS...
admin的头像-五八三admin2年前
090

广电用户画像分析之使用SVM预测用户是否挽留

在本篇博客中,我们将介绍如何使用支持向量机(SVM)模型来预测用户是否挽留。我们将使用Spark的ML库来实现这一目标,并通过构建和训练SVM模型,以及对测试集进行预测和评估,来解决这个分类问...
admin的头像-五八三admin2年前
0100
广电用户画像分析之根据用户行为数据进行筛选与标签添加-五八三

广电用户画像分析之根据用户行为数据进行筛选与标签添加

在数据处理和分析领域,我们经常需要根据用户的行为数据进行筛选和标签添加,以便更好地理解用户行为和偏好。在本篇博客中,我们将介绍两个示例,展示如何根据用户的收视行为数据和订单信息进行...
admin的头像-五八三admin2年前
040
使用二进制重排 & Clang插桩技术对iOS冷启动做优化太爽了-五八三

使用二进制重排 & Clang插桩技术对iOS冷启动做优化太爽了

1.冷启动  1.1 什么是冷启动? 冷启动是指内存中不包含该应用程序相关的数据,必须要从磁盘载入到内存中的启动过程。 注意:重新打开 APP, 不一定就是冷启动。 当内存不足,APP被系统自动杀死...
admin的头像-五八三admin2年前
0450
数仓架构“瘦身”,Hologres 5000CU时免费试用-五八三

数仓架构“瘦身”,Hologres 5000CU时免费试用

Hologres基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个大数据计算引擎中,并提供快速的...
admin的头像-五八三admin2年前
0110
之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?-五八三

之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?

今天,高性能计算结合人工智能技术正在推动科研创新。例如通过破解水稻基因密码推动作物育种从“试验选优”向“计算选优”发展,在医药领域快速分析分子与蛋白之间的相互作用,发现潜在的能够有...

广电用户画像分析之根据客户消费内容添加标签

本篇博客将介绍如何添加用户消费标签和用户消费等级标签. 建议阅读之前先阅读数据预处理的博客再读本篇博客. 相关前提: 广电用户画像分析之数据基本分析与预处理 - 掘金 (juejin.cn) 根据客户...
admin的头像-五八三admin2年前
030
基于Spline的数据血缘解析-五八三

基于Spline的数据血缘解析

一、前言 什么是数据血缘?数据血缘是数据产生、加工、转化,数据之间产生的关系。随着公司业务发展,通过数据血缘,能知道数据的流向,以便我们更好地进行数据治理。 二、为什么选择 Spline? ...
admin的头像-五八三admin2年前
070
Flink 转换算子(转算数据)-五八三

Flink 转换算子(转算数据)

摘要:本文主要描述flink在接收到上游数据后,使用转换算子,可以如何进行数据转换,得到我们想要的数据,章节主要分为基本转换算子、聚合算子、用户自定义函数、物理分区算子、分流、合流。 基...
admin的头像-五八三admin2年前
040

广电用户画像分析之数据基本分析与预处理

引言 数据分析在今天的数字化时代变得越来越重要,尤其是对于媒体行业来说。了解用户的收视行为和对媒体的偏好可以帮助媒体公司制定更有效的营销策略和优化内容推荐。本文将介绍如何使用Spark进...
admin的头像-五八三admin2年前
020