数据知识库
1109 字约 4 分钟
2025-01-20
这里整理数据分析师和数据科学家需要长期积累的核心能力。数据工作不是单纯学习工具,而是把业务问题、数据抽取、清洗建模、统计推断、可视化表达和模型验证连成一条闭环。
能力地图
Excel:业务分析与报表基本功
Excel 适合快速检查数据、构建轻量报表、做业务口径验证和交付可读性强的分析结果。数据分析师需要熟悉函数、数据透视表、Power Query、Power Pivot、图表和仪表盘。
入口:Excel 数据分析体系
数据分析方法:业务问题、指标和实验
数据分析方法关注“为什么分析、看哪些指标、怎么解释结果”。它把商业模式、指标体系、用户画像、转化、消费、运营、留存和 A/B 实验串成业务分析闭环。
入口:数据分析方法
Power BI:可持续 BI 报表与指标交付
Power BI 适合把一次性的分析沉淀成可刷新、可分发、可维护的业务仪表盘。重点是 Power Query 数据清洗、星型模型、DAX 度量值、报表设计、权限和刷新。
入口:Power BI
SQL:数据获取与指标口径
SQL 是进入数据仓库、业务数据库和 BI 系统的基础能力。重点不是背语法,而是能稳定写出可维护的查询,理解表关系、指标口径、聚合粒度、窗口函数和性能优化。
入口:SQL
Python:自动化分析与可复现研究
Python 用来处理 Excel 难以承载的数据规模和复杂逻辑。NumPy 提供数组计算,Pandas 负责清洗、聚合和特征处理,Matplotlib 用来完成基础可视化。真正有价值的是把分析流程沉淀成可复现的 Notebook 或脚本。
入口:Python 数据分析
机器学习:预测建模与科学实验
机器学习用于从历史数据中学习规律,并对未知样本做预测、分类、排序、聚类或推荐。数据科学家需要理解监督学习、无监督学习、模型评估、特征工程、过拟合、交叉验证和模型解释。
入口:机器学习
数据分析工作流
- 明确问题:把“想知道什么”变成可衡量的业务问题。
- 定义指标:确认口径、维度、时间窗口、粒度和排除条件。
- 获取数据:用 SQL 或已有报表抽取数据,记录数据来源。
- 清洗数据:处理缺失值、重复值、异常值、类型错误和口径不一致。
- 探索分析:用 Excel 或 Python 做分布、趋势、分组、相关性和漏斗分析。
- 统计判断:使用假设检验、置信区间、A/B 测试或回归分析判断结果是否可靠。
- 建模预测:在问题适合时使用机器学习,而不是为了使用模型而建模。
- 表达结论:把发现转化为清晰的图表、建议、风险和下一步行动。
学习顺序
建议顺序是 Excel -> SQL -> 数据分析方法 -> Power BI -> Python -> 统计与机器学习。Excel 帮助建立业务和报表直觉,SQL 负责拿到正确的数据,数据分析方法负责把业务问题拆成指标和实验,Power BI 负责长期报表交付,Python 提高分析上限,机器学习把分析推进到预测和自动化决策。
如果目标是数据分析师,先把 Excel、SQL、Power BI 打牢;如果目标是数据科学家,再继续加深 Python、统计建模、机器学习和实验设计。
职业能力清单
- 指标体系:DAU、留存、转化率、客单价、复购率、LTV、CAC、ROI 等。
- 统计思维:抽样、分布、显著性、置信区间、相关与因果。
- 数据工程意识:数据血缘、数据质量、主键、维表、事实表、宽表、分区。
- BI 建模:星型模型、事实表、维表、DAX 度量值、刷新策略、权限管理。
- 分析表达:图表选择、故事线、结论优先、可执行建议。
- 实验能力:A/B 测试设计、样本量、实验污染、指标监控。
- 建模能力:特征工程、训练验证划分、模型评估、模型上线前检查。