说明
以下内容来自群中出现的问题,大家讨论的结果
Q群:432600958
微信群:加微信w3aboutyun,附上about云铁粉
部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。五月一直在加班,整理的东西有限
如何从小白快速蜕变为大佬
时间
2018.05.03
内容
这是一些经验,主要有两点
1、 培养自己的阅读习惯
2、 提高对新技术的敏感力
文章末附了很多公众号
Spark 读取本地文件
时间
2018.05.03
讨论内容
Spark 作为一个分布式系统,如果读取本地文件,则要求该文件在所有节点都存在,并且目录都要求一致。
- 解决方法1:分发到所有节点(麻烦)
- 解决方法2:将文件传到hdfs,读取hdfs路径
- 解决方法3:使用addfile方法
扩展
Spark中函数addFile 和 addJar函数介绍
机器学习优化算法讨论 — by 木东居士 ref
时间
2018.05.03
讨论内容
机器学习的算法其实比运筹算法要简单,更偏重应用场景,更多的时间在做特征工程
机器学习算法里基本都有用到二阶特性(牛顿法要求hessian矩阵),都是一阶的(如梯度下降)
大规模学习来说,障碍往往在于算法的计算能力不足,而不是数据不够,所以也可以说传统额统计学习方法都不适合大规模数据处理
在样本量比较多的时候,线性分类方法的劣势小很多,例如可以通过手工拆分/离散化特征来模拟非线性关系。而且有个经验是,在数据量大的时候,一些看起来粗暴无脑的方法反而有令人惊奇的效果。
SVM 计算复杂度O(n^2),存在两个超参数,只能通过穷举实验来求,计算时间要高于不少非线性分类器
随机森林 计算复杂度O(nlogn)
资源分享
时间
2018.05.08
内容
经典算法大全 密码 ce85
算法导论中文版.pdf 密码 2ygr
python资源分享 密码:ll7q
内容包括:《Python 2.7 Tutorial 中文版》《Python3程序开发指南(第二版)》《Python高级编程》《python核心笔记》《python核心编程第二版笔记》《Python技术手册(第2版)》《Python源码剖析》《quantsp研究计划书》《笨办法学Python》
by 小青年
工作感悟
时间
2018.05.12
内容
工作的意义
最近在思考一个问题,工作的意义,一份工作最终目的究竟不该是一份简单的工资,而是这个公司能赋予你的资源,另一个是这份资源的成果转换对于市场的冲击力,对人,对社会的贡献度,人终究是需要处理社会活动的。
职业背景和职业活动的限制,换句话说,工作本身是用来解决社会问题的,个人可能觉得只是天天码代码,做工作量,但它的成效简直太小了,一眼可以看到他的发展和未来。但如果说直面社会问题,去为解决问题而去选择走向,我个人理解人是会不去换不同的工作和行业,最终形成一套解决方案的,另一个角度,如果是为了盈利,这个解决方案的出发点一开始就是针对购买力的问题,你做的是服务和解决方案的路子。触手伸的越广,收益越大。
即使是办企业也一样,仔细去看每个企业的基本描述类似,但核心针对点不一样,不管是个人也好,企业也罢,需要求同存异,找出自己的突破点,这个时代不是靠努力,而是靠挖掘力,执行力。
by 道友 枫柚master
Spark persist(DISK_ONLY)产生的问题
时间
2018.05.30
内容
在Spark 的代码中增加persist(DISK_ONLY) 之后,会出现多个task failed,错误原因为container memoryOverhead
去掉persist(DISK_ONLY) 就不再报这个错误,没有task failed, 并且运行速度提升。
此外,对比每个stage的IO,发现DISK_ONLY的有部分stage的IO是去掉persist的两倍。
猜想原因
DISK_ONLY 是将不做序列化的对象直接存入DISK,这部分产生大量IO,会占用内存。
Spark 代码优化
- 使用更高效的数据结构 BitSet、OpenHashSet、OpenHashMap
- inline
- 一些汉字字符串,做维表映射之后,变成数字编号
人工智能主要三块 大数据、NLP、CV
分布式发号器选择方案
- UUID
- DB
- SnowFlake