数分和算法
A. 【数分面试宝典】数分面试常考业务题(三)
EDA(Exploratory Data Analysis)即数据探索性分析,需要对数据集中的变量进行统计和分布描述、了解变量间的相互关系,从整体上了解数据集的数据特征。探索性分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值
②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
⑤数据的相关性分析。探索不同变量之间的相关性,可以使用相关性图进行展示,表示各变量之间的相关程度,为后续机器学习的特征选择提供依据。
环比:与相连续的上一个统计周期进行对比,环比增长速度=(本期数-上期数)÷上期数×100% ,反映本期比上期增长了多少,如2021年12月和2021年11月对比,环比的好处是可以更直观的表明阶段性的变换,但是会受季节性因素影响。
同比:是对去年同期的一个统计阶段进行对比,同比增长率=(本期数-同期数)÷同期数×100%,如今年的这个月和去年的这个月,同比的好处是可以排除一部分季节因素。
相关性的前提是各个变量之间是相互独立的,业务上来说,每个指标之间是没有影响的,相关性系数:0.5以下相关性较弱,0.5 -0.8中度相关,大于0.8较强相关。
如果A和B相关,会有以下几个推论:
A导致B:充分条件
B导致A:必要条件
C导致A和B:A和B同源
A和B如果有因果:充分且必要条件
相关和因果的区别:
相关:两个变量或多个变量之间的相互影响程度;核心点:变量与变量之间互为相关,没有先后顺序;
因果: 前一个事件对后一个事件的作用的关系及强度,核心点:有严格的先后顺序(变化可能会有延迟),如蝴蝶效应。
好玩的题目:
Y=0.5X y和x是相关还是因果?
y=0.5X+0.5z y和x是相关还是因果?
答案:都是相关
因果的前提是:有一个东西是先发生,而相关是没有先后顺序的,所以上述2个都是相关,而不是因果。
Q4、什么是聚类?业务应用场景?常见算法?
定义:
将相似的对象,将对象的特征进行抽象,通过算法将特征相似的对象化为一类,是一种无监督机器学习算法。
考点1:对于聚类,如何确定分类的数量N;
考点2:如何选择进行聚类的特征,比如要区分男女,有喉结的就是男生,留长发的就是女生;
应用场景:
个性化推荐(电商):相似用户行为相似,会分到某个类,如用户分层;
用户画像:基于用户的购买偏好、消费能力进行用户画像;
常见算法:
Kmeans聚类
DBSCAN聚类
Q5、什么是分类?业务应用场景?常见算法?
定义:
学习已有分类样本的特征,对新数据进行划分,是一种有监督的机器学习算法,分类是明确的,是有历史样本可学习的。
应用场景:
互联网金融用户信用等级分类
垃圾邮件分类
常见算法:
逻辑回归
SVM
贝叶斯
决策树
KNN
XGboost
Q6、什么是回归?业务应用场景?常见回归算法?
定义:
两个或多个变量之间是否相关,相关强度,并建立数学模型,定量评估
人话:我和你有没有关系,什么关系,深到什么程度。
本质:找到一条之间最合适的平均线,让线的附近的点分布均匀
应用场景:
运营推广中,是不是花的钱越多,买的流量越大,品类越丰富,用户活跃越高,那么,多到什么程度、大到什么程度、丰富到什么程度、用户的活跃最高,留存最高;
智慧城市的交通,预测交通拥塞程度:自变量:时间段、商业指数、住宅指数、城区指数、道路指数,因变量:两个连续信号灯之间道路的通行时间。
常见回归算法:
线性回归
lasso回归
ridge回归
树回归
Q7、时间序列预测的原理是什么?有哪些应用场景?
原理:
当自变量是时间时,且数据在时间上呈现出一定的规律,那么这种情况一般都可以使用时间序列预测接下来一段时间的数据走势。这个规律表现为:数据整体变化的趋势(可以理解为一条表征趋势的直线)、季节性(可以理解为按照一定的周期重复出现的模式)和随机性(可以理解为在零附近毫无规律的白噪声)组成,时间序列就是将数据按照这三个部分分别拆解,再基于历史数据进行组合预测。
应用场景:
一般应用于年度的KPI预测,产品的活跃用户数趋势,羽绒服的销量等。
Q8、时间序列预测需要注意的点?和回归有何区别?
需要注意的点:
时间间隔是固定的;
最近的数据对于预测影响程度越大;
预测是有季节性的,这里的季节性不一定是春夏秋冬,凡是以一定周期重复出现的都可以称为有季节性;
回归预测和时间序列预测的区别:
回归是自变量对于因变量的趋势,用以表征自变量和因变量之间的定量关系,一般来说自变量和因变量只能是连续的数据;
时间序列预测的自变量可以是任何数据,包括时间,只要数据呈现出周期性的趋势;
回归不能做季节性的预测;
以上就是【数分面试宝典】系列—面试业务题系列第3篇文章的内容,部分历史文章请回翻公众号,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈
B. 算术和算法的区别
算法是指完成一个任务准确而完整的描述。也就是说给定初始状态或输入数据,经过计算机程序的有限次运算,能够得出所要求或期望的终止状态或输出数据。
“算术”这个词,在我国古代是全部数学的统称。至于几何、代数等许多数学分支学科的名称,都是后来很晚的时候才有的。
国外系统地整理前人数学知识的书,要算是希腊的欧几里得的《几何原本》最早。《几何原本》全书共十五卷,后两卷时候人增补的。全书大部分是属于几何知识,在第七、八、九卷中专门讨论了数的性质和运算,属于算术的内容。
现在拉丁文的“算术”这个词是由希腊文的“数和数(音属,shû三音)数的技术”变化而来的。“算”字在中国的古意也是“数”的意思,表示计算用的竹筹。中国古代的复杂数字计算都要用算筹。所以“算术”包含当时的全部数学知识与计算技能,流传下来的最古老的《九章算术》以及失传的许商《算术》和杜忠《算术》,就是讨论各种实际的数学问题的求解方法。
C. 求算法:把一个数M分成N个整数的和
我们要编写一个函数,这个函数把一个数分为两个数之和,并且这两个数的乘积最大,这样的函数是不是很好编写,代码如下:
void f1(int a, int *x,int *y){
*x=a/2;
*y=a-*x;
}
知道为什么这样分吗,原理很简单:两个数都最大的时候,乘积才最大。也就是各取一半,如果a是奇数就让y多1。
要完成把N分为多个数,使其乘积最大,我们就先分为两个数,然后分别对这两个数进行各自进行拆分(递归调用),直到分开的两个数乘积比分前小,那就取消这次拆分。
基于以上说明,我们对f1函数进行修改,增加递归调用部分:
void f1(int n){
int x,y;
x=n/2;
y=n-x;
if (n>=x*y) printf("%d ",n);
else {f1(x);f1(y);}
}
添加计算乘积m的代码,以及主程序,完成的如下:
-----------------
int m;
void f1(int n){
int x,y;
x=n/2;
y=n-x;
if (n>=x*y) {printf("%d ",n);m*=n;}
else {f1(x);f1(y);}
}
main(){
int n;
m=1;
scanf("%d",&n);
f1(n);
printf("\n%d",m);
}
-----------------
程序在SCO UNIX上运行通过,结果如下:
-----------------
$ cc a.c
$ a.out
9
4 2 3
24
$ a.out
10
2 3 2 3
36
$ a.out
12
3 3 3 3
81
$
D. 数分与高数哪个难学什么区别都花几年学
高中数学怎么学?高中数学难学吗?
数学这个科目,不管是对于文科学生还是对于理科学生.都是比较重要的,因为他是三大主课之一,它占的分值比较大.要是数学学不好,你可能会影响到物理化学的学习,因为那些学科都是要通过计算.然而,这些计算也都是在数学里面.高中数学怎么学?有哪些好的方法?
老师让孩子上黑板做题
数学担负着培养孩子的运算能力,还有孩子应用知识的能力.高中数学怎样学?还是要看学生对数学的理解程度.学生要有自己的学习方法,你不光要掌握老师上课的内容,在下课之后还要及时巩固,加深.
E. 统计学专业是学什么的
本人是已经学习了两年应用统计学的大学生了,下面我将以什么是统计学?统计学专业学什么?怎样学习统计学?它的就业前景有哪些?这几个点来谈谈我对它的理解。
以上是作为正在学习统计学的我,对这个专业作出的总结,希望能帮助到你。
F. 数学分析中的O和算法中的O是一回事吗我
按定义来讲是一回事, 是统一的记号, 只不过算法分析里的O大多数时候仅用于n->oo时的无穷大量(当然, O(1)不是无穷大量, 只是有界量), 而数学分析里则还经常会用于无穷小量
G. 数学与计算机算法有什么关系
数学是基础学科,有丰富的数学基础可以对理解编程中的逻辑有帮助。
编程对不同的人有不同的意义:
对于一般的程序员就是代码的产出和可运行程序(数学在这里面并不是特别重要,更重要的是对各种框架的理解、熟练掌握、设计模式等)。
对于算法工程师来说,数学就很重要了(例如机器学习,密码学,计算机图形学等,当然这个对题主来说还太遥远)。
题主说的函数实际上就是为了实现目的的一种封装形式,而递归只是在函数中调用自身(当然需要终止条件)。
(7)数分和算法扩展阅读:
计算机的三个主要特征
1、运算速度快:计算机内部电路能高速准确地完成各种算术运算。当今计算机系统的计算速度已达到每秒数万亿次运算,微机也可达到每秒一亿次运算,使大量复杂的科学计算问题得以解决。例如,计算卫星轨道、大型水坝和24小时的天气可能需要数年甚至数十年,而在现代,用电脑几分钟就可以完成。
2、计算精度高:科学技术的发展,特别是尖端科学技术的发展,对计算精度要求很高。计算机控制的导弹之所以能够准确命中预定目标,与计算机的精确计算是分不开的。一般的计算机可以有十几位甚至几十位数字(二进制)有效数字,其计算精度可以从千分之几到百万分之一,是任何计算工具都无法比拟的。
3、逻辑操作能力强:计算机不仅可以进行精确计算,还具有逻辑操作功能,可以对信息进行比较和判断。计算机可参与操作数据、程序、中间结果和最终结果保存,并可根据判断结果自动执行下一条指令,供用户随时调用。
H. 数学分析、数值分析、数值算法这三者有和本质区别
数学分析是数学专业的微积分。
数值分析或者偏向函数逼近论,或者偏向计算方法。
数值算法是计算机的数值计算方法。
I. 数学分析中的O和算法中的O 是一回事吗 我没分了,
你说的算法中的O是指时间的复杂度吧,不能完全看作一回事,数分中有极限的过程,而在算法中表示一种阶数,算法中的O(n),表示与n有相同的阶数,在n前面可以加上任意一个确定的倍数,比如3n,5n,100n,都可以看成O(n),这是我自己的看法,仅供参考哈
J. 算术与算法,算术与数学的区别和联系
“算术”是一个学科的名称。“算法”顾名思义是一种计算方法而已。
“数学”是一个大的学科分类,里面包括“高等数学”“初级数学”“代数”几何“”算术“等等、等等。
”算术“只是数学里的一个小的分类。一般是指小学里的课程。
现在,一般笼统地都叫数学:小学数学、中学数学、大学数学。没有多少人再说”算术“了。
其实,我认为这样不好。还是小学叫算术,中学叫代数、几何.....,大学冠以”高等“。这样比较好。