大数据共0篇 第3页
大数据
火山引擎VeDI最新分享:消费行业的数据飞轮从“四更”开始-五八三

火山引擎VeDI最新分享:消费行业的数据飞轮从“四更”开始

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据飞轮,正在为消费行业的数字化升级提供一套全新模式。 在刚刚结束的《全链路增长:数据飞轮转动消...
admin的头像-五八三admin2年前
0140
火山引擎DataLeap的Data Catalog系统公有云实践 (下)-五八三

火山引擎DataLeap的Data Catalog系统公有云实践 (下)

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 Data Catalog公有云遇到的挑战 Data Catalog经历了一个从0到1在火山引擎公有云部署并逐步优化和迭代发...
admin的头像-五八三admin2年前
0180
当流计算邂逅数据湖:Paimon 的前生今世-五八三

当流计算邂逅数据湖:Paimon 的前生今世

序言 笔者从事流计算多年,真名叫李劲松,简写 LJS,Apache ID 也是 lzljs (泸州李劲松),而流计算简写也是 LJS,算是一种缘分吧。 一直在分布式计算与存储的领域工作,也参与了多个开源项目,...
admin的头像-五八三admin2年前
0100
字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化-五八三

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

深度学习的模型规模越来越庞大,其训练数据量级也成倍增长,这对海量训练数据的存储方案也提出了更高的要求:怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈,怎样更高效地支持特...
admin的头像-五八三admin2年前
0140
新型DDoS攻击?基于QUIC协议的DDoS反射放大攻击研究-五八三

新型DDoS攻击?基于QUIC协议的DDoS反射放大攻击研究

一、前言 QUIC作为新生代的网络协议,其在设计之初就充分考虑了防止反射放大在内的安全风险。然而火山引擎Anti-DDoS团队经过研究发现:现网实际存在大量可被利用作反射放大的QUIC server,而且...
admin的头像-五八三admin2年前
090
MapReuce 详解与复现, 完成 MIT 6.824(6.5840) Lab1-五八三

MapReuce 详解与复现, 完成 MIT 6.824(6.5840) Lab1

背景: MapReduce是谷歌于2004年提出的一种用于并行处理海量数据的算法模型。 MapReduce、 GFS、和Bigtable被成为谷歌分布式系统的'三驾马车', 共同开启了工业化的大数据时代,。虽然谷歌公开了Ma...
admin的头像-五八三admin2年前
0140
微信安全基于 Flink 实时特征开发平台实践-五八三

微信安全基于 Flink 实时特征开发平台实践

摘要:本文整理自腾讯专家级工程师李天旺,在 Flink Forward Asia 2022 AI 特征工程专场的分享。本篇内容主要分为四个部分: 背景介绍 平台架构的实践 线上运营的挑战 质量保障 点击查看原文视...
admin的头像-五八三admin2年前
0220
使用 Apache DolphinScheduler 进行 EMR 任务调度-五八三

使用 Apache DolphinScheduler 进行 EMR 任务调度

By AWS Team 前言 随着企业规模的扩大,业务数据的激增,我们会使用 Hadoop/Spark 框架来处理大量数据的 ETL/聚合分析作业,⽽这些作业将需要由统一的作业调度平台去定时调度。 在 Amazon EMR ...
admin的头像-五八三admin2年前
0100
如何基于 Apache Doris 构建新一代日志分析平台|解决方案-五八三

如何基于 Apache Doris 构建新一代日志分析平台|解决方案

作者:肖康,SelectDB 技术 副总裁 、Apache Doris Committer 日志数据是企业大数据体系中重要的组成部分之一,这些数据记录了网络设备、操作系统以及应用程序的详细历史行为,蕴含了丰富的信息...
admin的头像-五八三admin2年前
0160
10分钟入门Flink--安装-五八三

10分钟入门Flink–安装

本文介绍Flink的安装步骤,主要是Flink的独立部署模式,它不依赖其他平台。文中内容分为4块:前置准备、Flink本地模式搭建、Flink Standalone搭建、Flink Standalong HA搭建。 演示使用的Flink...
admin的头像-五八三admin2年前
0130
火山引擎DataLeap的Data Catalog系统公有云实践 (上)-五八三

火山引擎DataLeap的Data Catalog系统公有云实践 (上)

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 前言 Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数...
admin的头像-五八三admin2年前
0100
货拉拉基于 Flink 计算引擎的应用与优化实践-五八三

货拉拉基于 Flink 计算引擎的应用与优化实践

摘要:本文整理自货拉拉实时研发平台负责人王世涛,在Flink Forward Asia 2022 平台建设专场的分享。本篇内容主要分为六个部分: Flink 在货拉拉的使用现状 Flink 平台化 性能优化主题 数据准确...
admin的头像-五八三admin2年前
070

Linux中/etc/fstab详解

在一些大数据平台的搭建过程(如hadoop、mpp数据库),要求/var/lib的挂载必须去掉noatime和nosuid属性,借此机会,补一下技术债,以centOS系统为例,探讨linux系统中/etc/fstab文件的作用。 1....
admin的头像-五八三admin2年前
0360
免费开放|一站式集群管理神器 Cluster Manager for Apache Doris,轻松提升运维效率-五八三

免费开放|一站式集群管理神器 Cluster Manager for Apache Doris,轻松提升运维效率

在如今这个数据驱动的时代,Apache Doris 已经成为众多企业不可或缺的重要数据平台,帮助企业实现海量数据的实时查询分析,助力企业的业务决策更加高效实时。 作为广受认可的开源实时数据仓库,...
admin的头像-五八三admin2年前
090
大数据实时链路备战——数据双流高保真压测 | 京东云技术团队-五八三

大数据实时链路备战——数据双流高保真压测 | 京东云技术团队

一、大数据双流建设 1.1 数据双流 大数据时代,越来越多的业务依赖实时数据用于决策,比如促销调整,点击率预估、广告分佣等。为了保障业务的顺利开展,也为了保证整体大数据链路的高可用性,越...
admin的头像-五八三admin2年前
0210
10分钟入门Flink--架构和原理-五八三

10分钟入门Flink–架构和原理

相信你读完上一节的《10分钟入门Flink--了解Flink》对Flink已经有初步了解了。这是继第一节之后的Flink入门系列的第二篇,本篇主要内容是是:了解Flink运行模式、Flink调度原理、Flink分区、Fli...
admin的头像-五八三admin2年前
070
?别再说调试器不好用了!-五八三

?别再说调试器不好用了!

当人们说“调试器是无用的,使用日志和单元测试更好”时,我怀疑他们中的许多人认为调试器只能在某些行上设置断点,一步一步地通过代码,并检查变量值。虽然任何合理的调试器都可以做到这一切,...
admin的头像-五八三admin2年前
0150
火山引擎DataLeap如何解决SLA治理难题(三): 平台架构与未来展望-五八三

火山引擎DataLeap如何解决SLA治理难题(三): 平台架构与未来展望

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 平台架构总结 火山引擎 DataLeap SLA平台整体主要分为基础组件、规划式治理服务、响应式治理服务三大块...
admin的头像-五八三admin2年前
040

Hive安装与启动

一、mysql安装 在配置Hive之前一般都需要安装和配置MySQL,因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。 为了...
admin的头像-五八三admin2年前
0150
日增320TB数据,从ClickHouse迁移至ByConity后,查询性能十分稳定!-五八三

日增320TB数据,从ClickHouse迁移至ByConity后,查询性能十分稳定!

背景介绍 ByConity适合多种业务场景,在实时数据接入、大宽表聚合查询、海量数据下复杂分析计算、多表关联查询场景下有非常好的性能。我们用一个实际的业务场景来介绍下,这套行为分析系统是基...
admin的头像-五八三admin2年前
0100