排序
同程数科基于 Apache Doris 构建统一实时数仓,查询提速数十倍!
本文导读: 同程数科是同程集团旗下的旅游产业金融科技服务平台,为上下游企业和个人消费者提供数字金融科技服务。近年来,随着同程数科业务的不断拓展和用户量的增加,高效可靠的一站式数据中...
竞速榜实时离线对数方案演进介绍 | 京东云技术团队
一、背景 竞速榜是大促期间各采销群提供的基于京东实时销售数据的排行榜,同样应对大促流量洪峰场景,通过榜单撬动品牌在京东增加资源投入。竞速榜基于用户配置规则进行实时数据计算,榜单排名...
只需要50行代码就可以打造一个专门进行数据分析的机器人
大家好,我是小寒。 原文链接 今天,我将通过使用 LangChain 和 Streamlit 来构建一个专用于数据分析的聊天机器人。 我将向你展示如何用很少的编码工作来创建这个聊天机器人,如果觉得不错,点...
Apache Doris 助力中国联通万亿日志数据分析提速 10 倍
本文导读: 在数据安全管理体系的背后,离不开对安全日志数据的存储与分析。以终端设备为例,中国联通每天会产生百亿级别的日志数据,对于保障网络安全、提高系统稳定性和可靠性具有至关重要的...
百亿大表 Join 提速 300倍!Apache Doris 在约苗数据平台的实时数仓建设实践
本文导读: 约苗平台是国内目前最大的成人预防接种管理服务平台。近年来,随着各功能的不断完善,用户数量不断增多,越来越多注册数据、疫苗类别点击数据、页面浏览时长等数据被生成和积累,如...
【Python|Pandas】Pandas库核心内容
本文章参考网络视频以及菜鸟教程等内容进行Pandas核心内容的梳理,包含大部分当前最常用的一些功能,帮助快速入门或复习Pandas。 文章内容 基础操作 对象创建和数据查看 实际工作常用命令 常用...
【机器学习|Python】sklearn中的决策树模型
前言 本文主要说明 Python 的 sklearn 库中的决策树的常用接口、属性以及参数调优说明。 sklearn中的决策树 sklearn 中的决策树实现使用的是CART(Classification and Regression Trees)算法 s...
高级可视化神器:cufflinks
公众号:尤而小屋作者:Peter编辑:Peter 大家好,我是Peter~ 今天给大家推荐一个高级的可视化神器:cufflinks 学习过可视化库matplotlib和seaborn的朋友都知道:seaborn是matplotlib的高级封装...
MYSQL中JSON类型介绍 | 京东物流技术团队
1 json对象的介绍 在mysql未支持json数据类型时,我们通常使用varchar、blob或text的数据类型存储json字符串,对mysql来说,用户插入的数据只是序列化后的一个普通的字符串,不会对JSON文档本身...
机密计算峰会2023 | 打通数据孤岛的PPML能力
6月30日,机密计算峰会2023(Confidential Computing Summit 2023)在美国旧金山成功落幕。该峰会由机密计算联盟举办,通过聚焦各行业机构优秀解决方案和实践案例,加速推动机密计算在如医疗、...
事务,不只ACID | 京东物流技术团队
1. 什么是事务? 应用在运行时可能会发生数据库、硬件的故障,应用与数据库的网络连接断开或多个客户端端并发修改数据导致预期之外的数据覆盖问题,为了提高应用的可靠性和数据的一致性,事务 ...
广电用户画像分析之数据基本分析与预处理
引言 数据分析在今天的数字化时代变得越来越重要,尤其是对于媒体行业来说。了解用户的收视行为和对媒体的偏好可以帮助媒体公司制定更有效的营销策略和优化内容推荐。本文将介绍如何使用Spark进...
pandas小技巧-DataFrame的显示参数
我们在jupyter notebook中使用pandas显示DataFrame的数据时,由于屏幕大小,或者数据量大小的原因,常常会觉得显示出来的表格不是特别符合预期。 这时,就需要调整pandas显示DataFrame的方式。p...
ACM顶会 | 提升数字水印鲁棒性和隐蔽性的分析研究
一、概述 字节跳动产品安全-多媒体与AI安全团队在多媒体数字水印领域的研究论文《Practical Deep Dispersed Watermarking with Synchronization and Fusion 》,于近日入选多媒体领域国际顶会AC...
列式数据库ClickHouse
主题 有关于clickhouse的内容比较多,我从另外一种场景下简要的说明,希望能为选型或使用带来一定的参考意义 行数据库 在传统的行式数据库系统中,数据按如下顺序存储: 处于同一行中的数据总是...
竞速榜实时离线对数方案演进介绍
一、背景 竞速榜是大促期间各采销群提供的基于京东实时销售数据的排行榜,同样应对大促流量洪峰场景,通过榜单撬动品牌在京东增加资源投入。竞速榜基于用户配置规则进行实时数据计算,榜单排名...
得物自建DTS平台的技术演进 | 精选
0 前言 DTS是数据传输平台(Data Transfer Platform的缩写) 随着得物App的用户流量增长,业务选择的数据库越来越多样化,异构数据源之间的数据同步需求也逐渐增多。为了控制成本并更好地支持业务...
Matplotlib基础-几何图形
除了绘制各类分析图形(比如柱状图,折线图,饼图等等)以外,matplotlib 也可以在画布上任意绘制各类几何图形。这对于计算机图形学、几何算法和计算机辅助设计等领域非常重要。 matplitlib 中...
如何系统的学习python中的numpy,pandas,matplotlib?太有用了!!!
前言 随着大数据、云计算和人工智能的发展,越来越多的企业需要以数据为基础做出决策。数据分析是处理大量数据的过程,分析数据以识别趋势和模式,并从数据中提取有用的信息来支持业务决策。数...
VisActor——面向叙事的智能可视化解决方案
一、 VisActor 是什么 (官网截图: www.visactor.io) VisActor 是一个数据可视化解决方案 VisActor 是从字节跳动大量可视化场景沉淀而来。在覆盖常规可视化场景的同时,以叙事可视化为新的着力...