排序
揭开神秘面纱,会stream流就会大数据
如果你会任意一门语言的stream流,没道理不会大数据开发。 俗话说男追女隔座山,女追男隔层纱。 如果说零基础学大数据,感觉前面是一座山,那么只要你会java或者任意一门语言的stream流,那大数...
基于Spline的数据血缘解析
一、前言 什么是数据血缘?数据血缘是数据产生、加工、转化,数据之间产生的关系。随着公司业务发展,通过数据血缘,能知道数据的流向,以便我们更好地进行数据治理。 二、为什么选择 Spline? ...
Apache Doris 在拈花云科的统一数据中台实践,One Size Fits All
作者|NearFar X Lab 团队 洪守伟、陈超、周志银、左益、武超 整理|SelectDB 内容团队 导读: 无锡拈花云科技服务有限公司(以下简称拈花云科)是由中国创意文旅集成商拈花湾文旅和北京滴普科...
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 申报签署流程详解 火山引擎DataLeap SLA保障的前提是先达成SLA协议。在SLA保障平台中,以申报单签署的...
火山引擎VeDI最新分享:消费行业的数据飞轮从“四更”开始
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据飞轮,正在为消费行业的数字化升级提供一套全新模式。 在刚刚结束的《全链路增长:数据飞轮转动消...
环路检测在风控领域的应用实践丨Fabarta 技术专栏
导读: 本文分享了在使用图分析引擎开发风控算法时遇到的挑战,以及我们采取的方案和措施,介绍环路检测算法在风控场景的探索和工程化方案,分享算法效率优化、硬件资源限制下的算法探索的一些...
Hadoop的完全分布式搭建
集群规划 主机名Hadoop10Hadoop11Hadoop12网络192.168.10.10192.168.10.11192.168.10.12用户hadoop roothadoop roothadoop rootHDFSNameNode DateNodeDateNodeSecondary NameNode DataNodeYARNN...
CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新
摘要:HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。 本文分享自华为云社区《CSR格...
Hadoop on k8s 快速部署进阶精简篇
一、概述 前面一篇文章已经很详细的介绍了Hadoop on k8s部署了,这里主要针对部署时可能会调整的地方和注意事项进行讲解,想详细了解详细部署过程可参考我上一篇文章:Hadoop on k8s 编排部署进...
顺丰基于 Flink CDC + Hudi 推进实时业务落地
摘要:本文整理自大数据研发高级工程师唐尚文,在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为三个部分: 应用场景 实践与优化 未来规划 点击查看原文视频 & 演讲PPT 一...
《基于Apache Airflow的数据流管道》第二章:Airflow DAG 解剖
本章涵盖内容: 在您自己的机器上运行Airflow 编写并运行您的第一个工作流 查看Airflow界面的第一个视图 处理Airflow中的任务失败 在前一章中,我们了解了为什么在处理数据及其众多工具时并不容...
美团买菜基于 Flink 的实时数仓建设
摘要:本文整理自美团买菜实时数仓技术负责人严书,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为四个部分: 背景介绍 技术愿景和架构设计 典型场景、挑战与应对 未来规划 ...
图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率
作者 | 刘广东,Apache SeaTunnel Committer 背景 目前,现有的图书搜索解决方案(例如公共图书馆使用的解决方案)十分依赖于关键词匹配,而不是对书名实际内容的语义理解。因此会导致搜索结果...
数据处理的大一统——从 Shell 脚本到 SQL 引擎
“工业流水线”的鼻祖,福特 T 型汽车[1]的电机装配,将组装过程拆成 29 道工序,将装备时间由平均二十分钟降到五分钟,效率提升四倍 ,下图图源[2]。 T 型汽车装配流水线 这种流水线的思想在数...
火山引擎DataLeap的Data Catalog系统公有云实践 (上)
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 前言 Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数...
火山引擎DataLeap数据质量动态探查及相关前端实现
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 需求背景 火山引擎DataLeap数据探查上线之前,数据验证都是通过写SQL方式进行查询的,从编写SQL,到解...
百度离线资源治理
作者 | 百度MEG离线优化团队 导读 近些年移动互联网的高速发展驱动了数据爆发式的增长,各大公司之间都在通过竞争获得更大的增长空间,大数据计算的效果直接影响到公司的发展,而这背后其...
广电用户画像分析之根据客户消费内容添加标签
本篇博客将介绍如何添加用户消费标签和用户消费等级标签. 建议阅读之前先阅读数据预处理的博客再读本篇博客. 相关前提: 广电用户画像分析之数据基本分析与预处理 - 掘金 (juejin.cn) 根据客户...
Kubernetes云原生实战:分布式GeaFlow实现图研发,构建第一个商业智能应用
引言 Kubernetes在云原生应用中扮演着至关重要的角色,为商业智能(BI)强大赋能。不同于传统的BI,容器化部署在集群中可以获得更高的可靠性、弹性和灵活性。 但在实际生产实践中,这还远远不够...
北京汽车:传统车厂向“用户服务”转型的新范本
摘要:用户决定价值 英国大文豪狄更斯曾在《双城记》中说:“这是最好的时代,也是最坏的时代”。大浪淘沙之下,汽车产业的故事正是当下制造业最恢宏和吸睛的叙事,恢宏在于增长速度,吸睛则在...