大数据共0篇 第4页
大数据
Hadoop的完全分布式搭建-五八三

Hadoop的完全分布式搭建

集群规划 主机名Hadoop10Hadoop11Hadoop12网络192.168.10.10192.168.10.11192.168.10.12用户hadoop roothadoop roothadoop rootHDFSNameNode DateNodeDateNodeSecondary NameNode DataNodeYARNN...
admin的头像-五八三admin2年前
050
CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新-五八三

CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新

摘要:HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。 本文分享自华为云社区《CSR格...
admin的头像-五八三admin2年前
0150
Hadoop on k8s 快速部署进阶精简篇-五八三

Hadoop on k8s 快速部署进阶精简篇

一、概述 前面一篇文章已经很详细的介绍了Hadoop on k8s部署了,这里主要针对部署时可能会调整的地方和注意事项进行讲解,想详细了解详细部署过程可参考我上一篇文章:Hadoop on k8s 编排部署进...
admin的头像-五八三admin2年前
050
顺丰基于 Flink CDC + Hudi 推进实时业务落地-五八三

顺丰基于 Flink CDC + Hudi 推进实时业务落地

摘要:本文整理自大数据研发高级工程师唐尚文,在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为三个部分: 应用场景 实践与优化 未来规划 点击查看原文视频 & 演讲PPT 一...
admin的头像-五八三admin2年前
0210
《基于Apache Airflow的数据流管道》第二章:Airflow DAG 解剖-五八三

《基于Apache Airflow的数据流管道》第二章:Airflow DAG 解剖

本章涵盖内容: 在您自己的机器上运行Airflow 编写并运行您的第一个工作流 查看Airflow界面的第一个视图 处理Airflow中的任务失败 在前一章中,我们了解了为什么在处理数据及其众多工具时并不容...
admin的头像-五八三admin2年前
0350
美团买菜基于 Flink 的实时数仓建设-五八三

美团买菜基于 Flink 的实时数仓建设

摘要:本文整理自美团买菜实时数仓技术负责人严书,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 背景介绍 技术愿景和架构设计 典型场景、挑战与应对 未来规划 ...
admin的头像-五八三admin2年前
090
图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率-五八三

图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率

作者 | 刘广东,Apache SeaTunnel Committer 背景 目前,现有的图书搜索解决方案(例如公共图书馆使用的解决方案)十分依赖于关键词匹配,而不是对书名实际内容的语义理解。因此会导致搜索结果...
admin的头像-五八三admin2年前
030
数据处理的大一统——从 Shell 脚本到 SQL 引擎-五八三

数据处理的大一统——从 Shell 脚本到 SQL 引擎

“工业流水线”的鼻祖,福特 T 型汽车[1]的电机装配,将组装过程拆成 29 道工序,将装备时间由平均二十分钟降到五分钟,效率提升四倍 ,下图图源[2]。 T 型汽车装配流水线 这种流水线的思想在数...
admin的头像-五八三admin2年前
080
火山引擎DataLeap的Data Catalog系统公有云实践 (上)-五八三

火山引擎DataLeap的Data Catalog系统公有云实践 (上)

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 前言 Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数...
admin的头像-五八三admin2年前
0100
火山引擎DataLeap数据质量动态探查及相关前端实现-五八三

火山引擎DataLeap数据质量动态探查及相关前端实现

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 需求背景 火山引擎DataLeap数据探查上线之前,数据验证都是通过写SQL方式进行查询的,从编写SQL,到解...
admin的头像-五八三admin2年前
090
百度离线资源治理-五八三

百度离线资源治理

作者 |  百度MEG离线优化团队 导读  近些年移动互联网的高速发展驱动了数据爆发式的增长,各大公司之间都在通过竞争获得更大的增长空间,大数据计算的效果直接影响到公司的发展,而这背后其...

广电用户画像分析之根据客户消费内容添加标签

本篇博客将介绍如何添加用户消费标签和用户消费等级标签. 建议阅读之前先阅读数据预处理的博客再读本篇博客. 相关前提: 广电用户画像分析之数据基本分析与预处理 - 掘金 (juejin.cn) 根据客户...
admin的头像-五八三admin2年前
030
Kubernetes云原生实战:分布式GeaFlow实现图研发,构建第一个商业智能应用-五八三

Kubernetes云原生实战:分布式GeaFlow实现图研发,构建第一个商业智能应用

引言 Kubernetes在云原生应用中扮演着至关重要的角色,为商业智能(BI)强大赋能。不同于传统的BI,容器化部署在集群中可以获得更高的可靠性、弹性和灵活性。 但在实际生产实践中,这还远远不够...
admin的头像-五八三admin2年前
070
北京汽车:传统车厂向“用户服务”转型的新范本-五八三

北京汽车:传统车厂向“用户服务”转型的新范本

摘要:用户决定价值 英国大文豪狄更斯曾在《双城记》中说:“这是最好的时代,也是最坏的时代”。大浪淘沙之下,汽车产业的故事正是当下制造业最恢宏和吸睛的叙事,恢宏在于增长速度,吸睛则在...
admin的头像-五八三admin2年前
0150
解决Zeppelin使用JdbcRealm角色查询与鉴权不生效问题-五八三

解决Zeppelin使用JdbcRealm角色查询与鉴权不生效问题

先说结论:可能因为角色SQL判断复杂,查询不通用的特性。导致没有将JDBC方式进行角色查询与校验的相关代码放入。 一、背景 最近在调研 zeppelin(0.10.1 版本),在测试鉴权这一块的时候发现了...
admin的头像-五八三admin2年前
0180
Apache Paimon 流式数据湖 V 0.4 与后续展望-五八三

Apache Paimon 流式数据湖 V 0.4 与后续展望

摘要:本文整理自阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(之信)在 Apache Paimon Meetup 的分享。本篇内容主要分为四个部分: 湖存...
admin的头像-五八三admin2年前
0180
大数据驱动的实时文本情感分析系统:构建高效准确的情感洞察【上进小菜猪大数据】-五八三

大数据驱动的实时文本情感分析系统:构建高效准确的情感洞察【上进小菜猪大数据】

上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 随着互联网的快速发展和大数据技术的不断成熟,用户推荐系统在各个应用领域变得越来越重要。本文将介绍如何利用大数据技术构建一...
admin的头像-五八三admin2年前
060
火山引擎 Iceberg 数据湖的应用与实践-五八三

火山引擎 Iceberg 数据湖的应用与实践

在云原生计算时代,云存储使得海量数据能以低成本进行存储,但是这也给如何访问、管理和使用这些云上的数据提出了挑战。而 Iceberg 作为一种云原生的表格式,可以很好地应对这些挑战。本文将介...
admin的头像-五八三admin2年前
0150
10分钟入门Flink--了解Flink-五八三

10分钟入门Flink–了解Flink

Flink入门系列文章主要是为了给想学习Flink的你建立一个大体上的框架,助力快速上手Flink。学习Flink最有效的方式是先入门了解框架和概念,然后边写代码边实践,然后再把官网看一遍。 Flink入门...
admin的头像-五八三admin2年前
0330
火山引擎DataTester:三类AB实验,让企业营销拥有灵敏“网感”-五八三

火山引擎DataTester:三类AB实验,让企业营销拥有灵敏“网感”

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 作者:火山引擎AB测试 近日,火山引擎数智平台举办了“走进火山-全链路增长:数据飞轮转动消费新生力”...
admin的头像-五八三admin2年前
0290