排序
顺丰基于 Flink CDC + Hudi 推进实时业务落地
摘要:本文整理自大数据研发高级工程师唐尚文,在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为三个部分: 应用场景 实践与优化 未来规划 点击查看原文视频 & 演讲PPT 一...
Flink 遇见 Apache Celeborn:统一的数据 Shuffle 服务
作者| 熊佳树( 履霜) 我们非常高兴的宣布 Apache Celeborn(Inclubating)[1] 正式支持 Flink,Celeborn 于去年 12 月份正式进入 Apache 软件基金会 (ASF) 的孵化器,一直致力打造统一的中间...
无数据,不 AI!Databricks Data + AI 峰会亮点总结
作者:RisingWave 创始人 & CEO 吴英骏 相比于去年重金押宝于数据湖仓,Databricks 今年在宣传上可谓是“all in AI”:不仅请了 Eric Schmidt(前任谷歌 CEO )与 Satya Nadella(现任微软 ...
Apache Doris 2.0-beta 版本发布:盲测性能 10 倍提升,更统一的多场景极速分析体验
亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布!在 2.0-beta 版本中有超过 255 位贡献者为 Apache Doris 提交了超过 3500 个优化与...
火山引擎DataLeap的Data Catalog系统公有云实践 (下)
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 Data Catalog公有云遇到的挑战 Data Catalog经历了一个从0到1在火山引擎公有云部署并逐步优化和迭代发...
火山引擎VeDI助力零售品牌私域运营 实现与会员高效“沟通”
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 小程序正在成为零售品牌与会员高效沟通的第二阵地。 过去,零售品牌多依赖电商平台与会员保持互动联系...
关于ChatGPT,我们请小红书技术人和NLP专家聊聊原理和潜力
在微软、百度、阿里、腾讯、小米纷纷宣布入局之后,ChatGPT 再次被送上科技头条。 图源:Financial Times 互联网公司们的争相表态,让大家似乎看到了 ChatGPT 落地应用的曙光。相比去年底,关于...
收钱吧与火山引擎VeDI合作一年后 有了哪些新变化?
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 收钱吧正在和火山引擎数智平台(VeDI)跑出一条业务提效新通路。 相关数据显示,收钱吧的日服务人次就...
从源代码编译构建Hive3.1.3
编译说明 使用Hive官方提供的预编译安装包是最常见和推荐的方式来使用Hive,适用于大多数用户。这些预编译的安装包经过了测试和验证,在许多不同的环境中都能正常运行。 在某些特定情况下,可能...
治水?智水!天翼云用科技解码智慧水务新发展!
“七下八上”是我国主汛期的重要阶段之一 该时段内北方进入主雨季 南海和西太平洋进入台风活跃期 沿海地区更是深受台风降水和风暴潮等极端天气影响 全国正式进入防汛关键期 一直以来,作为与防...
小米基于 Flink 的实时计算资源治理实践
摘要:本文整理自小米高级软件工程师张蛟,在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分: 发展现状与规模 框架层治理实践 平台层治理实践 未来规划与展望 点击查...
数仓 Hive HA 介绍与实战操作
一、概述 在数据仓库中,Hive HA(High Availability) 是指为 Apache Hive 这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案...
解决Zeppelin使用JdbcRealm角色查询与鉴权不生效问题
先说结论:可能因为角色SQL判断复杂,查询不通用的特性。导致没有将JDBC方式进行角色查询与校验的相关代码放入。 一、背景 最近在调研 zeppelin(0.10.1 版本),在测试鉴权这一块的时候发现了...
Apache Paimon 流式数据湖 V 0.4 与后续展望
摘要:本文整理自阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(之信)在 Apache Paimon Meetup 的分享。本篇内容主要分为四个部分: 湖存...
ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计
ClickHouse核心架构设计是怎么样的?ClickHouse核心架构模块分为两个部分:ClickHouse执行过程架构和ClickHouse数据存储架构,下面分别详细介绍。 ClickHouse执行过程架构 总的来说,结合目前搜...
火山引擎AB测试:广告实验深度打通巨量引擎,高效测试广告素材
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近期,火山引擎AB测试DataTester上线了新版的广告AB实验,还推出了与巨量引擎深度打通的能力。用户可以...
补齐OLAP引擎短板!ByteHouse 是如何实现流批一体的?
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 计算机领域一直流传一句话——“没有银弹”,这句话出自计算机科学家布鲁克斯《没有银弹》一书,意思是...
网易互娱出海之旅:大数据平台上云架构设计与实践
2020 年初,随着网易互娱的海外业务增长与海外数据合规的需求,我们开始了网易互娱大数据离线计算平台迁移出海的工作。前期,我们采取了云主机裸机加上高性能 EBS 块存储的方案。但是,这个方案...
如何基于 Apache Doris 构建新一代日志分析平台|解决方案
作者:肖康,SelectDB 技术 副总裁 、Apache Doris Committer 日志数据是企业大数据体系中重要的组成部分之一,这些数据记录了网络设备、操作系统以及应用程序的详细历史行为,蕴含了丰富的信息...
从源代码编译构建Apach Spark3.2.4
编译说明 对于大多数用户来说,使用官方预编译版本的Spark已经足够满足日常需求。只有在特定的场景和需求下,重新编译Spark才是必需的。 编译Spark源代码的场景、原因如下: 1.定制需求: 如果...