在信息社会,各行各业都充满了"大数据"。数据科学与工程作为一门新兴学科,深深扎根于"大数据"这一广袤的土地上。然而,大数据的海量、高维、多模态(多样性)以及无处不在的噪声等特性,决定了对大数据的处理和分析有别于传统的纯粹的计算机科学或统计学。为了处理这些问题,需要培养学生新的数学基础,如对数据表示的高维空间的直观认识,熟悉用概率的方式思考问题,并且能够同步优化建模和设计算法,最终落地于计算机上的实现以及实际应用解决方案。这就需要对传统计算机科学以离散数学为重点的数学教学体系做重大改进,转移到以矩阵论、概率和数值优化为重点的符合数据科学与工程特色的新的数学体系,然而这一体系非常庞大,不宜分开教。因此,需要设计一门新的数据科学与工程的数学基础课程来满足这一专业的需求。
本课程主要介绍数据科学、人工智能和机器学习领域所需的核心数学基础知识,涉及矩阵计算、概率和信息论基础、优化基础。课程内容按照从模式分析到数据分析再到数学基础的思路来组织,围绕数据分析系统的核心构成:数据、模型和学习形成数据线和数学线两条线。数据线按照数据分析的处理流程、通过大量翔实的案例作为导引,引出所需数学;数学线紧扣数据线,按照知识内容发生的内在自然逻辑顺序展开。两者相辅相成,构成从具体到抽象、从抽象到具体的闭环。
课程的目的是让学生能够系统、有针对性的掌握这些数学基础知识,能够使用他们去理解和分析各类数据处理算法涉及的数学问题,为后续系统学习数据分析相关专业必修课和选修课打下基础。内容难度在工科的高等数学、线性代数和概率论与数理统计的基础上往下延展,难度适中并配有相当数量的习题。学生学完这门课后可以轻松学习数据科学与工程算法、机器学习、人工智能、计算机视觉和自然语言处理等等数据科学相关课程的学习。
本课程在数据科学的定位类似于《离散数学》在计算机科学的定位,可作为数据科学与大数据技术、人工智能、计算机科学和软件工程等相关专业的本科生或研究生的数学基础必修课程,也可作为学术和工业界科技人员了解和应用数据科学与大数据技术数学基础的选修课程或参考。