排序
《基于Apache Airflow的数据流管道》第三章:Airflow中的调度
本章涵盖的内容: 在固定时间间隔内运行DAG 构建动态DAG以逐步处理数据 使用回填加载和重新处理过去的数据集 应用可靠任务的最佳实践 在前一章中,我们探索了Airflow的用户界面,并向您展示了如...
万字长文 | Hadoop 上云: 存算分离架构设计与迁移实践
一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来,每年都保持着高速增长,业务的增长带来了数据量的剧增。 在过去几年中,我们按照每 1 到 2 年的规划扩容硬件...
河北幸福消费金融基于 Apache Doris 构建实时数仓,查询提速 400 倍!
本文导读: 随着河北幸福消费金融的客户数量和放贷金额持续上升,如何依托大数据、数据分析等技术来提供更好决策支持、提高工作效率和用户体验,成为了当前亟需解决的问题。基于此,公司决定搭...
使用二进制重排 & Clang插桩技术对iOS冷启动做优化太爽了
1.冷启动 1.1 什么是冷启动? 冷启动是指内存中不包含该应用程序相关的数据,必须要从磁盘载入到内存中的启动过程。 注意:重新打开 APP, 不一定就是冷启动。 当内存不足,APP被系统自动杀死...
基于 Flink & Paimon 实现 Streaming Warehouse 数据一致性管理
摘要:本文整理自字节跳动基础架构工程师李明,在 Apache Paimon Meetup 的分享。本篇内容主要分为四个部分: 背景 方案设计 当前进展 未来规划 点击查看原文视频 & 演讲PPT 一、背景 早...
【Flink】详解Flink任务提交流程
前言 大家好,我们的gzh是朝阳三只大明白,满满全是干货,分享近期的学习知识以及个人总结(包括读研和IT),跪求一波关注,希望和大家一起努力、进步!! 启动一个任务 通常我们会使用 bin/fli...
大语言模型(LLM)实践 | 识别与修复风险代码
一、 低成本解决“风险代码” 一直以来,“漏洞”作为一种典型的风险管理对象,链接了动态扫描(DAST)、静态扫描(SAST)等风险发现工具和企业风险修复流程。但围绕漏洞建立的“风险发现”和“...
Linux中/etc/fstab详解
在一些大数据平台的搭建过程(如hadoop、mpp数据库),要求/var/lib的挂载必须去掉noatime和nosuid属性,借此机会,补一下技术债,以centOS系统为例,探讨linux系统中/etc/fstab文件的作用。 1....
《基于Apache Airflow的数据流管道》第二章:Airflow DAG 解剖
本章涵盖内容: 在您自己的机器上运行Airflow 编写并运行您的第一个工作流 查看Airflow界面的第一个视图 处理Airflow中的任务失败 在前一章中,我们了解了为什么在处理数据及其众多工具时并不容...
10分钟入门Flink–了解Flink
Flink入门系列文章主要是为了给想学习Flink的你建立一个大体上的框架,助力快速上手Flink。学习Flink最有效的方式是先入门了解框架和概念,然后边写代码边实践,然后再把官网看一遍。 Flink入门...
离线保障链路分析及优化方法
1. 背景 货拉拉数据平台上有众多的任务,任务和任务之间有着复杂依赖关系,这些任务关系实际上构成了一个有向无环图(DAG),任务成百上千,我们很难用“一张图”就直观的画出整个链路的结构和...
Apache Doris 2.0.0 版本正式发布:盲测性能 10 倍提升,更统一多样的极速分析体验
亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0.0 版本已于 2023 年 8 月 11 日正式发布,有超过 275 位贡献者为 Apache Doris 提交了超过 4100 个优化与修复。 在 2.0.0 版本...
基于Docker搭建Hadoop大数据集群环境
1 引子 因兼具跨平台兼容性优、资源消耗少、自动化程度高、运行稳定、环境隔离等优点,Docker大受欢迎,在应用打包、分发、部署、开源分享方面得到广泛应用。其实Docker在本地快速安装试用及学...
实现无限存储:基于JuiceFS 创建 Samba 和 NFS 共享
随着企业数据量的持续增长,存储容量需求日益增大。如何采用没有容量上限的云存储替换本容量有限的本地磁盘,已成为广泛的需求和共识。特别是在企业中常用的 Samba 和 NFS 共享,如果能够使用云...
火山引擎DataTester:三类AB实验,让企业营销拥有灵敏“网感”
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 作者:火山引擎AB测试 近日,火山引擎数智平台举办了“走进火山-全链路增长:数据飞轮转动消费新生力”...
【ElasticSearch】大数据量情况下的前缀、中缀实时搜索方案
简述 业务开发中经常会遇到这样一种情况,用户在搜索框输入时要实时展示搜索相关的结果。要实现这个场景常用的方案有Completion Suggester、search_as_you_type。那么这两种方式有什么区别呢?...
火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 申报签署流程详解 火山引擎DataLeap SLA保障的前提是先达成SLA协议。在SLA保障平台中,以申报单签署的...
微信安全基于 Flink 实时特征开发平台实践
摘要:本文整理自腾讯专家级工程师李天旺,在 Flink Forward Asia 2022 AI 特征工程专场的分享。本篇内容主要分为四个部分: 背景介绍 平台架构的实践 线上运营的挑战 质量保障 点击查看原文视...
一张图读懂TuGraph Analytics开源技术架构
TuGraph Analytics(内部项目名GeaFlow)是蚂蚁集团开源的分布式实时图计算引擎,即流式图计算。通过SQL+GQL融合分析语言对表模型和图模型进行统一处理,实现了流、批、图一体化计算,并支持了E...
大数据实时链路备战——数据双流高保真压测 | 京东云技术团队
一、大数据双流建设 1.1 数据双流 大数据时代,越来越多的业务依赖实时数据用于决策,比如促销调整,点击率预估、广告分佣等。为了保障业务的顺利开展,也为了保证整体大数据链路的高可用性,越...