特征工程是指在机器学习任务中,通过选择、转换、创建合适的特征,以提高模型性能的过程。 好的特征工程可以帮助模型更好地捕捉数据的规律,提高模型的泛化能力。
从特征到特征
特征工程的目的:
- 为了帮助模型减轻压力
特征工程的核心工作:
- 特征处理的过程是对数据进行微观和宏观投影的过程
特征工程的结果:
- 虽然叫做特征处理
- 但特征本身没有变化
- 变的知识观察的维度
举例:
如果将光作为一个特征,你只能告诉模型这里有一条光线。 但如果加上一个三棱镜,便可以 告诉模型,这里有七种颜色的光。
小结:
特征工程就是在不同角度刻画数据特征,即寻找特征的特征。
从低纬到高维
独热编码的最大特点:
就是能够将数据投射到高维空间,并同时保证它们之间的正交关系。
从空间到世界
单词做独热编码,映射到高维空间中,得到单词的高维向量表达。
独热编码所投影出来的全部单词之间,都是正交关系。
相邻单词之间的字面距离,来描述它们的空间关系
- 使用对比学习
- 刻画单词之间的相似度
- 两种方法
- Skip-gram
- CBOW
总结
特征工程的本质是空间投影的过程