3数据

约 1081 字大约 4 分钟

2025-01-20

这里我更想记录一下我认为的数据分析。很多时候我们会将重点放在数据上，的确，数据的清晰整理非常重要，也需要合适的方式调用出来。这一切会不会在人工智能时代发生变化呢。

之前尝试过几个text to sql的工具，有一些问到复杂一点的并表查询会出一点点小问题，不过多数情况下已经可以做到非常精准的查询数据库和调取了。我相信随着AI的scaling，这部分一定是可以解决的。那么接下来我认为才是分析的关键，这又回到了底层的数学和统计学。

这些数学中的概念想做好数据分析是一定一定离不开的：

参数估计
假设检验
置信区间
A/B测试
…

这些应该是我大学时候的课上学的，虽然我当时学的是金融，不过金融中也非常经常的使用假设检验置信区间等等概念，甚至我后面工作中做风险分析还是经常的需要去判断风险是否显著等等。

有了这些基础的概念后面才是掌握各种工具的流程。

我认为的流程是：

SQL →Python(pandas, numpy) → Jupiter notebook → 机器学习 →深度学习，这里我基本已经跨入人工智能领域了。

组织博客分类时，我选择将机器学习放在"数据"而不是"人工智能"分类下。这个决定并非随意为之，而是基于对这些领域本质的深入思考。

机器学习的本质在于从复杂的数据中挖掘相对应的规律，从而总结和预测未知事物。这其中的本质还是和数据分析中的归纳总结差不多，知识加入了不少更新的先进的算法思想。

详细学习路线

首先数据分析一定离不开的工具就是SQL，这也是我认为应该开始的地方。

SQL基础可以直接去W3Schools SQL教程里面看，我觉得写的还比较详细。

然后就是现代的数据分析一定离不开python，python中有这些工具一定建议掌握

Python数据分析库

NumPy：数值计算
Pandas：数据处理和分析
Matplotlib/Seaborn：数据可视化
Jupyter Notebook：交互式开发环境

这里我把Jupyter Notebook拿出来单独放其实是我个人的偏好吧。感觉到了机器学习领域基本没有它我寸步难行。因为很常见的就是你也不知道自己的数据有什么特征，这个时候不断的调整python代码一次次的执行在IDE中会很麻烦。用Jupyter帮我省了不少的时间，我也很喜欢这个设计和交互方式。甚至我一度认为这可能会是笔记软件开发的终极方案（有点扯远了）。

总之，后面到了机器学习，这里面一定要看的就是吴恩达的课程了。我刚开始的时候看了不少试图去理解，也尝试过一些别的网课还有西瓜书什么的。后面发现有点不太适合我自己。我需要去理解才能知道和记住，要是直接告诉我结论结论往往对我来讲是左耳朵进右耳朵出的。后面看了吴恩达的很多概念清晰了很多，至少能够理解一些思想。这边不叫推荐他在coursera最新的课程。内容上和早期斯坦福的公开课差不多，不过感觉每次他改版都会做的更精良一点。

到了这个阶段，kaggle就是很好的练习数据分析的地方了。我最近也刚刚参加了Jane street的那场，去年参加的home credit risk的分析那场。感觉需要有一些实践才能更好的把理论知识和现实结合在一起。当然我还有很多需要学习的，慢慢应该会把这些丰富一下，后续看看总结的经验多了也可以写点kaggle笔记。

21/01/2025