大数据-五八三-第2页

顺丰基于 Flink CDC + Hudi 推进实时业务落地

摘要：本文整理自大数据研发高级工程师唐尚文，在 Flink Forward Asia 2022 数据集成专场的分享。本篇内容主要分为三个部分：应用场景实践与优化未来规划点击查看原文视频 & 演讲PPT 一...

admin2年前

0210

Flink 遇见 Apache Celeborn：统一的数据 Shuffle 服务

作者｜熊佳树（履霜）我们非常高兴的宣布 Apache Celeborn（Inclubating）[1] 正式支持 Flink，Celeborn 于去年 12 月份正式进入 Apache 软件基金会 (ASF) 的孵化器，一直致力打造统一的中间...

admin2年前

0200

无数据，不 AI！Databricks Data + AI 峰会亮点总结

作者：RisingWave 创始人 & CEO 吴英骏相比于去年重金押宝于数据湖仓，Databricks 今年在宣传上可谓是“all in AI”：不仅请了 Eric Schmidt（前任谷歌 CEO ）与 Satya Nadella（现任微软 ...

admin2年前

0200

Apache Doris 2.0-beta 版本发布：盲测性能 10 倍提升，更统一的多场景极速分析体验

亲爱的社区小伙伴们，我们很高兴地向大家宣布，Apache Doris 2.0-beta 版本已于 2023 年 7 月 3 日正式发布！在 2.0-beta 版本中有超过 255 位贡献者为 Apache Doris 提交了超过 3500 个优化与...

admin2年前

0200

火山引擎DataLeap的Data Catalog系统公有云实践（下）

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群 Data Catalog公有云遇到的挑战 Data Catalog经历了一个从0到1在火山引擎公有云部署并逐步优化和迭代发...

admin2年前

0200

火山引擎VeDI助力零售品牌私域运营实现与会员高效“沟通”

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群小程序正在成为零售品牌与会员高效沟通的第二阵地。过去，零售品牌多依赖电商平台与会员保持互动联系...

admin2年前

0190

关于ChatGPT，我们请小红书技术人和NLP专家聊聊原理和潜力

在微软、百度、阿里、腾讯、小米纷纷宣布入局之后，ChatGPT 再次被送上科技头条。图源：Financial Times 互联网公司们的争相表态，让大家似乎看到了 ChatGPT 落地应用的曙光。相比去年底，关于...

阅读

admin2年前

0190

收钱吧与火山引擎VeDI合作一年后有了哪些新变化？

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群收钱吧正在和火山引擎数智平台（VeDI）跑出一条业务提效新通路。相关数据显示，收钱吧的日服务人次就...

admin2年前

0180

从源代码编译构建Hive3.1.3

编译说明使用Hive官方提供的预编译安装包是最常见和推荐的方式来使用Hive，适用于大多数用户。这些预编译的安装包经过了测试和验证，在许多不同的环境中都能正常运行。在某些特定情况下，可能...

admin2年前

0180

治水？智水！天翼云用科技解码智慧水务新发展！

“七下八上”是我国主汛期的重要阶段之一该时段内北方进入主雨季南海和西太平洋进入台风活跃期沿海地区更是深受台风降水和风暴潮等极端天气影响全国正式进入防汛关键期一直以来，作为与防...

admin2年前

0180

小米基于 Flink 的实时计算资源治理实践

摘要：本文整理自小米高级软件工程师张蛟，在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分：发展现状与规模框架层治理实践平台层治理实践未来规划与展望点击查...

admin2年前

0180

数仓 Hive HA 介绍与实战操作

一、概述在数据仓库中，Hive HA（High Availability）是指为 Apache Hive 这个数据仓库查询和分析工具提供高可用性的架构和解决方案。Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案...

admin2年前

0180

解决Zeppelin使用JdbcRealm角色查询与鉴权不生效问题

先说结论：可能因为角色SQL判断复杂，查询不通用的特性。导致没有将JDBC方式进行角色查询与校验的相关代码放入。一、背景最近在调研 zeppelin（0.10.1 版本），在测试鉴权这一块的时候发现了...

admin2年前

0180

Apache Paimon 流式数据湖 V 0.4 与后续展望

摘要：本文整理自阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家，Apache Flink PMC，Paimon PPMC 李劲松（之信）在 Apache Paimon Meetup 的分享。本篇内容主要分为四个部分：湖存...

admin2年前

0180

ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计

ClickHouse核心架构设计是怎么样的？ClickHouse核心架构模块分为两个部分：ClickHouse执行过程架构和ClickHouse数据存储架构，下面分别详细介绍。 ClickHouse执行过程架构总的来说，结合目前搜...

admin2年前

0170

火山引擎AB测试：广告实验深度打通巨量引擎，高效测试广告素材

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群近期，火山引擎AB测试DataTester上线了新版的广告AB实验，还推出了与巨量引擎深度打通的能力。用户可以...

admin2年前

0170

补齐OLAP引擎短板！ByteHouse 是如何实现流批一体的？

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群计算机领域一直流传一句话——“没有银弹”，这句话出自计算机科学家布鲁克斯《没有银弹》一书，意思是...

admin2年前

0170

网易互娱出海之旅：大数据平台上云架构设计与实践

2020 年初，随着网易互娱的海外业务增长与海外数据合规的需求，我们开始了网易互娱大数据离线计算平台迁移出海的工作。前期，我们采取了云主机裸机加上高性能 EBS 块存储的方案。但是，这个方案...

博客文章

admin2年前

0170

如何基于 Apache Doris 构建新一代日志分析平台｜解决方案

作者：肖康，SelectDB 技术副总裁、Apache Doris Committer 日志数据是企业大数据体系中重要的组成部分之一，这些数据记录了网络设备、操作系统以及应用程序的详细历史行为，蕴含了丰富的信息...

admin2年前

0160

从源代码编译构建Apach Spark3.2.4

编译说明对于大多数用户来说，使用官方预编译版本的Spark已经足够满足日常需求。只有在特定的场景和需求下，重新编译Spark才是必需的。编译Spark源代码的场景、原因如下： 1.定制需求：如果...

admin2年前

0160