排序
Hadoop的完全分布式搭建
集群规划 主机名Hadoop10Hadoop11Hadoop12网络192.168.10.10192.168.10.11192.168.10.12用户hadoop roothadoop roothadoop rootHDFSNameNode DateNodeDateNodeSecondary NameNode DataNodeYARNN...
CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新
摘要:HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。 本文分享自华为云社区《CSR格...
Hadoop on k8s 快速部署进阶精简篇
一、概述 前面一篇文章已经很详细的介绍了Hadoop on k8s部署了,这里主要针对部署时可能会调整的地方和注意事项进行讲解,想详细了解详细部署过程可参考我上一篇文章:Hadoop on k8s 编排部署进...
顺丰基于 Flink CDC + Hudi 推进实时业务落地
摘要:本文整理自大数据研发高级工程师唐尚文,在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为三个部分: 应用场景 实践与优化 未来规划 点击查看原文视频 & 演讲PPT 一...
《基于Apache Airflow的数据流管道》第二章:Airflow DAG 解剖
本章涵盖内容: 在您自己的机器上运行Airflow 编写并运行您的第一个工作流 查看Airflow界面的第一个视图 处理Airflow中的任务失败 在前一章中,我们了解了为什么在处理数据及其众多工具时并不容...
美团买菜基于 Flink 的实时数仓建设
摘要:本文整理自美团买菜实时数仓技术负责人严书,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 背景介绍 技术愿景和架构设计 典型场景、挑战与应对 未来规划 ...
图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率
作者 | 刘广东,Apache SeaTunnel Committer 背景 目前,现有的图书搜索解决方案(例如公共图书馆使用的解决方案)十分依赖于关键词匹配,而不是对书名实际内容的语义理解。因此会导致搜索结果...
数据处理的大一统——从 Shell 脚本到 SQL 引擎
“工业流水线”的鼻祖,福特 T 型汽车[1]的电机装配,将组装过程拆成 29 道工序,将装备时间由平均二十分钟降到五分钟,效率提升四倍 ,下图图源[2]。 T 型汽车装配流水线 这种流水线的思想在数...
火山引擎DataLeap的Data Catalog系统公有云实践 (上)
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 前言 Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数...
火山引擎DataLeap数据质量动态探查及相关前端实现
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 需求背景 火山引擎DataLeap数据探查上线之前,数据验证都是通过写SQL方式进行查询的,从编写SQL,到解...
百度离线资源治理
作者 | 百度MEG离线优化团队 导读 近些年移动互联网的高速发展驱动了数据爆发式的增长,各大公司之间都在通过竞争获得更大的增长空间,大数据计算的效果直接影响到公司的发展,而这背后其...
广电用户画像分析之根据客户消费内容添加标签
本篇博客将介绍如何添加用户消费标签和用户消费等级标签. 建议阅读之前先阅读数据预处理的博客再读本篇博客. 相关前提: 广电用户画像分析之数据基本分析与预处理 - 掘金 (juejin.cn) 根据客户...
Kubernetes云原生实战:分布式GeaFlow实现图研发,构建第一个商业智能应用
引言 Kubernetes在云原生应用中扮演着至关重要的角色,为商业智能(BI)强大赋能。不同于传统的BI,容器化部署在集群中可以获得更高的可靠性、弹性和灵活性。 但在实际生产实践中,这还远远不够...
北京汽车:传统车厂向“用户服务”转型的新范本
摘要:用户决定价值 英国大文豪狄更斯曾在《双城记》中说:“这是最好的时代,也是最坏的时代”。大浪淘沙之下,汽车产业的故事正是当下制造业最恢宏和吸睛的叙事,恢宏在于增长速度,吸睛则在...
解决Zeppelin使用JdbcRealm角色查询与鉴权不生效问题
先说结论:可能因为角色SQL判断复杂,查询不通用的特性。导致没有将JDBC方式进行角色查询与校验的相关代码放入。 一、背景 最近在调研 zeppelin(0.10.1 版本),在测试鉴权这一块的时候发现了...
Apache Paimon 流式数据湖 V 0.4 与后续展望
摘要:本文整理自阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(之信)在 Apache Paimon Meetup 的分享。本篇内容主要分为四个部分: 湖存...
大数据驱动的实时文本情感分析系统:构建高效准确的情感洞察【上进小菜猪大数据】
上进小菜猪,沈工大软件工程专业,爱好敲代码,持续输出干货。 随着互联网的快速发展和大数据技术的不断成熟,用户推荐系统在各个应用领域变得越来越重要。本文将介绍如何利用大数据技术构建一...
火山引擎 Iceberg 数据湖的应用与实践
在云原生计算时代,云存储使得海量数据能以低成本进行存储,但是这也给如何访问、管理和使用这些云上的数据提出了挑战。而 Iceberg 作为一种云原生的表格式,可以很好地应对这些挑战。本文将介...
10分钟入门Flink–了解Flink
Flink入门系列文章主要是为了给想学习Flink的你建立一个大体上的框架,助力快速上手Flink。学习Flink最有效的方式是先入门了解框架和概念,然后边写代码边实践,然后再把官网看一遍。 Flink入门...
火山引擎DataTester:三类AB实验,让企业营销拥有灵敏“网感”
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 作者:火山引擎AB测试 近日,火山引擎数智平台举办了“走进火山-全链路增长:数据飞轮转动消费新生力”...