排序
广电用户画像分析之根据用户行为数据进行筛选与标签添加
在数据处理和分析领域,我们经常需要根据用户的行为数据进行筛选和标签添加,以便更好地理解用户行为和偏好。在本篇博客中,我们将介绍两个示例,展示如何根据用户的收视行为数据和订单信息进行...
火山引擎DataLeap如何解决SLA治理难题(三): 平台架构与未来展望
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 平台架构总结 火山引擎 DataLeap SLA平台整体主要分为基础组件、规划式治理服务、响应式治理服务三大块...
之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?
今天,高性能计算结合人工智能技术正在推动科研创新。例如通过破解水稻基因密码推动作物育种从“试验选优”向“计算选优”发展,在医药领域快速分析分子与蛋白之间的相互作用,发现潜在的能够有...
10亿数据、查询<10s,论基于OLAP搭建广告系统的正确姿势
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 由于流量红利逐渐消退,越来越多的广告企业和从业者开始探索精细化营销的新路径,取代以往的全流量、粗...
图书搜索领域重大突破!用Apache SeaTunnel、Milvus和OpenAI提高书名相似度搜索精准度和效率
作者 | 刘广东,Apache SeaTunnel Committer 背景 目前,现有的图书搜索解决方案(例如公共图书馆使用的解决方案)十分依赖于关键词匹配,而不是对书名实际内容的语义理解。因此会导致搜索结果...
广电用户画像分析之根据客户消费内容添加标签
本篇博客将介绍如何添加用户消费标签和用户消费等级标签. 建议阅读之前先阅读数据预处理的博客再读本篇博客. 相关前提: 广电用户画像分析之数据基本分析与预处理 - 掘金 (juejin.cn) 根据客户...
通过 docker-compose 快速部署 Azkaban 保姆级教程
一、概述 Apache Azkaban 是一个开源的批处理工作流调度系统,用于管理和调度Hadoop生态系统中的任务和作业。 Azkaban 提供了一个直观的Web界面,让用户能够轻松地定义、调度和监控作业流。它支...
在线上问题的摸爬滚打中突击TIDB
前言 距离上一篇文章已经过去半个月了,中间这两周呢,上上周在解决项目的线上问题,一直在改BUG,这个比较要紧,因为我上周休假了,要保证假期的时候没啥问题。前两篇都是讲了Flink的遇到的线...
同程数科基于 Apache Doris 构建统一实时数仓,查询提速数十倍!
本文导读: 同程数科是同程集团旗下的旅游产业金融科技服务平台,为上下游企业和个人消费者提供数字金融科技服务。近年来,随着同程数科业务的不断拓展和用户量的增加,高效可靠的一站式数据中...
火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 企业如何找到数据、了解数据以及使用数据? 这离不开数据目录的能力。数据目录有着类似于“字典”的作...
快速上手kettle(三)壶中可以放些啥?
合集 - 快速上手kettle(3)1.快速上手kettle(一)壶之简介05-252.快速上手kettle(二)小试牛刀05-293.快速上手kettle(三)壶中可以放些啥?06-04收起 目录序言一 、kettle这壶能装些啥二、Acces...
数据类型错误带来严重后果!一文读懂怎么正确选择数据类型
确保数据质量应该是IT专业人员最重要的目标之一。如今,这一点比以往任何时候都更为重要,因为组织依靠数据来驱动其人工智能和机器学习算法。如果你希望做出准确的决策,就需要准确、高质量的数...
广电用户画像分析之数据基本分析与预处理
引言 数据分析在今天的数字化时代变得越来越重要,尤其是对于媒体行业来说。了解用户的收视行为和对媒体的偏好可以帮助媒体公司制定更有效的营销策略和优化内容推荐。本文将介绍如何使用Spark进...