数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来


数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来
数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

导读 随着人工智能技术的迅猛发展,特别是大语言模型的爆发式增长,AI 已经开始深入影响数据科学工作的各个方面。本文将由 Snap 公司 Core Data Science 组数据科学家徐萌老师,从数据科学家的日常工作出发,探讨如何利用 AI 技术优化数据处理流程、提供工作效率,并思考 AI 时代的职业发展路径。

主要内容包括:

1. 背景介绍

2. AI 在数据收集和清理中的应用

3. AI 在建模中的应用

4. AI 提高数据科学工作效率的其他应用

5. AI 的局限、人机协作及职业发展思考

6. Q&A

分享嘉宾|徐萌 Snap Inc. Tech lead of core data science 

编辑整理|旭锋

内容校对|李瑶

出品社区|DataFun


01

背景介绍

1. 数据科学家的核心工作模块

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

数据科学家的核心工作模块包括以下内容:

当拿到一个商业问题时,首先需要考虑的是如何将其转化为描述性问题、预测性问题或因果推论问题。确定问题类型后,还需选择具体的方法,例如对于因果推论问题,需要思考是通过实验回答,还是依赖观测性数据。最后选择对应方法。这一步在数据科学工作中至关重要。

接下来,数据科学家需要收集和清理数据,然后用统计和机器学习方法进行建模。

分析完成后,通常需要借助可视化方法和沟通技巧,将结论与决策层进行有效沟通。因为决策层可能缺乏专业的数据科学背景。代码实现贯穿所有步骤。

2. 人工智能的基本概念

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

在讨论 AI 应用之前,有必要明确几个核心概念:

  • 深度学习:是机器学习的一个子集,使用神经网络方法分析数据并进行预测。与传统机器学习不同,深度学习不仅能处理结构化数据,还能从非结构化信息(如文本、图片、视频、音频)中提取数字化表示。它是 AI 算法的基础。
  • 生成式人工智能:指根据自然语言提示自动生成文本、图像、音频、代码等内容的 AI。
  • 大语言模型:是通过深度学习训练出的大规模文本生成模型,能够理解和生成自然语言。

这三者代表了人工智能的不同层面:深度学习是模型基础,生成式 AI 是深度学习的一种应用,大语言模型则是生成式 AI 在文本领域的代表。

02

AI 在数据收集和清理中的应用

1. 文本向量表示

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

文本向量表示(Text Embedding)是将文字转化为向量,即把文字数字化,使计算机能处理自然语言中的语义信息。

文本向量化发展经历了从稀疏向量到稠密向量的演变:

  • 稀疏向量表示:前 AI 时代的常见做法,直接将词汇转换为数字,不考虑词汇含义或上下文,通常生成包含大量零的长向量。

  • 稠密向量表示:在深度学习和 AI 时代,使用几百维的稠密连续数字向量来表示文本含义,而非仅仅表示单个词汇。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

Google BQML 中的 Text Embedding 功能简单易用,只需一行代码就能将文本转换为 768 维向量。例如,将我爱猫转换为向量,如果改为英文“I love cat”,结果会非常相似,表明这种转换基于文本含义而非文本本身。

2. 利用向量距离量化文本相似度

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

将文本转换为向量后,可以通过计算向量距离来量化文本相似度。最简单的方法是点乘法,通过计算两个向量的点积来衡量相似度。

例如,在品牌相似度计算中,我们可以使用 Google Text Embedding 模型结合点乘法来计算品牌之间的距离:

  • 丰田(Toyota)和本田(Honda)都是传统日本车品牌,相似度为 0.59

  • 丰田与特斯拉(Tesla)的相似度为 0.56,略低于与本田的相似度

  • 丰田与运动品牌 Lululemon 的相似度仅为 0.4

  • 丰田与饮料品牌可口可乐的相似度仅为 0.42

  • 耐克与 Lululemon 同为运动品牌,相似度为 0.554

3. 预训练模型与微调模型

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

使用大语言模型时,我们通常会用到两种类型的模型:

  • 预训练模型:在大规模数据集上提前训练的模型,分为预训练语言理解模型(将语言转换为向量,如 Bert)和预训练语言生成模型(如 GPT 系列,这类模型优势在于即取即用,基于海量人类语言训练,通用性强)。

  • 微调模型:在预训练模型基础上,使用特定任务数据继续训练的模型。它在特定需求上更准确,适合用户情感分析、企业私有知识问答、多语言适配等场景。

预训练模型可比作不偏科的高中学霸,全面发展且有潜质;微调模型则让这位全能高中毕业生进一步学习特定专业知识。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

微调的必要性体现在向量表示对场景和语境的依赖上。例如,一种新的苹果产品在科技新闻推荐系统中指的是苹果公司产品(iPhoneMacBook 等),而在水果电商客服对话中指的是水果。预训练模型只能学到平均意义,无法准确判断特定语境,需要微调来适应。

微调模型的基本步骤包括:

  • 收集训练内容,按情景需求标注正负样本

  • 使用不同预训练模型进行预测,理解各模型准确度

  • 选择适当的损失函数(loss function)

  • 运行微调过程,使用验证集提高准确度

  • 使用评估数据集评估模型准确度

Python 库 sentence-transformers 提供了常见预训练模型和选择损失函数的指南,值得推荐。

4. 语义搜索

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

语义搜索使用 AI 或自然语言处理来理解搜索查询背后的含义,从内容含义上进行匹配。相比传统关键词搜索,语义搜索更加智能,不仅匹配关键词,还匹配内容含义。

例如,搜索如何让广告更有效时,传统关键词搜索会查找包含广告有效等词的内容,可能包含许多不相关信息。而语义搜索则理解用户想了解提高广告效率的方法,会搜索相关内容,即使这些内容中没有这些关键词。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

语义搜索实现步骤:

  • 将待搜索内容转换为向量表示

  • 将搜索查询转换为向量表示

  • 计算搜索查询向量与每条内容向量的距离(可使用点乘法)

  • 按距离从小到大排序内容,最接近的内容最符合搜索需求

语义搜索常用于搜索引擎、问答机器人等场景。在数据科学中,可用于推荐系统,根据用户喜好搜索意思相近的内容。

在实际应用中,亚马逊已从关键词搜索升级到语义搜索:以前搜索“quality”会显示所有包含该词的评论并加粗该词;现在则显示所有讨论产品质量的评论,即使评论中没有“quality”关键词,AI 也会从相关评论中提炼产品质量总结。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

关键词搜索并非毫无价值,它简单高效,适合大数据量快速检索。而语义搜索虽然更准确,但计算成本高,对每条内容逐一进行向量转换在商业实践中会很昂贵。实践中可先用关键词搜索缩小范围,再用语义搜索排除不相关内容。

5. 利用生成式 AI 进行文本分类

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

除了传统机器学习分类和基于语义搜索的分类外,还可以利用生成式 AI 进行文本分类:

  • 传统机器学习模型:输入离散结果和数字化预测特征,调整模型参数提高表现

  • 语义搜索分类:利用相似度设置阈值进行分类

  • 生成式 AI 分类:输入文字、图像、视频、音频等非数字化资料,用自然语言作为提示词要求 AI 帮助分类,通过调整提示词而非参数来提高模型表现
数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来
以从标签中找出指代具体品牌的标签为例,语义搜索分类步骤为:

  • 将所有标签用大语言模型转换为向量表示

  • 将“品牌”一词转换为向量表示

  • 计算“品牌”与每个标签的距离

  • 设置阈值进行分

生成式 AI 分类表现更佳,但需要尝试不同提示词(prompt)。以下是几种提示词的效果对比:

  • 初始提示词:“Is the following tag a brand name? The tag is X.”AI 不直接回答问题,而是解释一番)

  • 改进提示词:“Is the following tag a brand name? The tag is X. Only answer yes or no.”(结果仍不满意,AI 会将类似“yogurt”这种指代具体事物但非特定品牌的标签归类为品牌)

  • 最佳提示词:加入具体例子,如“Yogurt is not a brand, but Nike is a brand.”(在测试数据上表现极佳,准确识别所有品牌)

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

Google BQML 提供了简单的代码实现方式,只需编写 SQL 调用标签、给出提示词,并调用 Google 内建生成式 AI 模型,即可完成文本分类。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

文本分类的一些经验总结:

  • 提示词不要过于复杂,复杂任务应分步给出提示词

  • 问答式提示词比完形填空式提示词表现更好

  • GPT-4o 和 GPT-4GPT-4 Turbo 表现稍微好一些。GPT-4o mini 表现更差。Claude 比 GPT 表现差

  • 只有解码器的语言理解模型(如 BERT)比包含解码器和编码器的语言生成模型计算更便宜高效

  • 应使用评估样本来评估不同模型和提示词的表现,降低过度拟合可能性

03

AI 在建模中的应用

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

将向量表示转为模型特征:

1. 机器学习模型

  • 将文本、图像、视频直接转化为向量表示,作为新特征加入机器学习模型

  • 使用生成式 AI 的文本分类结果作为预测性更强的特征

2. 因果推论模型

  • 利用向量表示计算的内容相似度作为特征(如计算广告与内容相似度,研究相似度如何影响广告表现)

3. 推荐系统模型

  • 将用户评价和物品描述转化为向量表示,分别作为用户特征和物品特征;

将向量表示作为新特征有两个主要优势:一是将内容深层含义数字化,便于模型处理;二是生成稠密向量,维度较低,便于后续模型处理。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来
  • 让 AI 建议基于现有特征生成新特征

    利用 AI 从日期判断节假日

    让 AI 帮助计算特征间的比值(特别适用于需要提高线性模型解释性的场景)

  • 使用 AI 清洗离散变量,修正空格、乱码、打字错误等问题

  • 利用自然语言让 AI 判断缺失值、多重共线性、数据重复等问题

04

AI 提高数据科学工作效率的其他应用

1. 代码编写与处理

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

AI 在代码方面的应用表现视任务复杂度而定:

  • 于简单直接的任务,AI 表现相当出色

  • 对于步骤多、复杂的任务,AI 容易出错,需要不断调整提示词;需要专业知识帮助 AI 调试,确保代码逻辑正确

  • 有时 AI 会固执地输出错误代码,此时应放弃使用 AI

AI 在代码方面的其他有用应用:

  • 帮助理解他人代码,辅助学习

  • 在不同编程语言间转换代码(如 转 Python

  • 将本地代码转换为云端处理代码(如转为 SQL 代码)

  • 优化代码计算效率

2. 数据可视化

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来
数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

AI 在数据可视化方面表现出色,可以根据自然语言描述生成 或 Python 的绘图代码。对 AI 而言,绘图是相对简单直接的任务,能创建美观、符合要求的图表。

3. 写作与沟通

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

比如今天的分享内容,向 AI 输入演讲主题概要,AI 协助构建了框架结构,随后再进行内容填充。

AI 在英语写作方面展现出卓越能力。对于非英语母语的国外工作者而言,英语写作在 AI 出现前一直是明显短板:撰写博士论文时,之前会专门聘请编辑协助修改,而现在这类任务可以交由 AI 完成。AI 能使文章达到信、达、雅的标准。

此外,AI 可以指导我们如何更有效地与上下级沟通、开展团队协作。在数据科学领域,有许多优秀数据科学家都属于内向型人格(INTJ)。这类人群的技术能力(technical skills)通常优于人际交往能力(people skills),不擅长与他人沟通。AI发展的这几年中,利用 AI 指导人际沟通有助于提升职场软技能。例如,需要向上级反映问题时,可以向 AI 学习表达得更有理有据,甚至会预测上级可能的回应并帮助准备应对策略。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

数据科学家需要持续跟进最新研究成果,保持终身学习,AI在这方面也提供了帮助。AI 能够概括文献主要内容,使用时先了解AI的总结,再深入阅读感兴趣的部分。

然而,若让 AI 进行文献综述,效果仅能达到及格水平。虽然 AI 能涵盖一些重要文献,但对领域熟悉的人会发现其总结并不全面。

AI 还可以将文献中的新方法转化为代码。常见情况是,统计学新方法的作者仅在论文中提供算法描述而无具体代码,此时可请AI协助编写代码。值得注意的是,AI 处理多步骤的复杂任务时容易出错,因此不能完全依赖 AI。必须真正理解方法背后的逻辑,协助 AI 调试。

在知识问答方面,AI 对成熟概念的总结相当出色,但对前沿概念的解释可能存在不准确之处。

05

AI 的局限、人机协作及职业发展思考

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

1. AI 的局限性

通过对多种 AI 应用的探讨,可以看出 AI 仍存在诸多局限:

AI 常表现出“懂王”倾向,提供看似合理但实际可能有误的答案,需要专业人士进行判断。若使用者对相关领域毫无了解,盲目采纳 AI 建议而不理解其原理,容易被误导。

AI 难以处理复杂的多步骤问题,往往顾此失彼。每个步骤都需要具备专业技能的人员仔细评估。实践中应避免将复杂内容直接交给 AI 处理,而应将问题分解为小步骤。与 AI 协作类似于指导实习生,需要提供清晰简单的指令。

AI 倾向于总结现有思路,缺乏创新能力,大致相当于大学生水平,而非博士层次。人类专家更善于综合各种方法提出复合性创新解决方案。例如,本次峰会上的诸多演讲都基于专家创新,这不是 AI 能简单完成的。

此外还存在隐私问题,企业应限制员工使用公开 AI 平台,设置公司专用AI系统,禁止上传数据至大语言模型后台,以确保商业资料安全。

AI 对前沿知识的了解也较为有限,对数据科学家而言,最关键的环节是将商业问题转化为数据科学问题。这方面 AI 可以提供头脑风暴辅助,但无法全面思考或提供创新思路。

2. 人机协作与职业发展

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

关于 AI 时代的职业思考, AI 与数据科学家仍是互补关系:

确实有一些低端数据分析工作正在被 AI 取代,例如 ChatGPT 的 Advanced Data Analysis 工具已能胜任简单的数据分析工作。但如前所述,AI 有诸多局限,目前难以取代真正的专业技术人员。专家可利用 AI 提高工作效率,形成强者通吃格局——数据科学家若具备创新能力,且可以熟练使用 AI,其职场价值将更高。

最近一项有趣的中国经济学家研究发现,与 AI 互补的岗位变得更加内卷,工作效率提高但工作时间增加,员工满意度降低。积极方面是这些岗位的收入相对于非 AI 互补岗位有所增加。这反映了 AI 使专业技术人员更全能,形成赢家通吃的局面。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

AI 时代企业招聘需与时俱进,在评估人才能力时,应从考察编码能力转向评估代码逻辑理解、AI 协作、识别 AI 错误及调试的能力。同时,从考察浅层知识转向评估深层理解,考察候选人是否关注前沿方法,是否具备将商业问题转换为数据科学问题的能力,以及结合不同方法进行创新的能力。

对于数据科学家,终身学习至关重要。我们需要追求前沿知识,善用 AI 成为全栈发展的数据科学家。在利用 AI 提高数据科学素养的同时,也可向 AI 学习,提升职场软技能,同时提高自身的数据科学专业能力和沟通交流能力。

06

Q&A

Q1:在结构化数据的小样本建模中,将结构化数据 XML 或 JSON 化后送入大语言模型(LM),通过提示词优化或参数高效微调(PEFT)进行分类建模,与传统机器学习(ML)建模的差距有多大?有相关的论文研究吗?

A1我没有细读相关的研究文献,但可能存在一些相关研究。对于结构化数据,我确实没有实践经验。不过对于非结构化数据,人工智能模型能够达到较高的准确度。不一定需要将其输入大语言模型(LLM)进行处理,您可以尝试一些深度学习方法,但实际应用需视具体情况而定。根据我的经验,如果数据结构非常规范清晰,在许多情况下,基于树的模型(tree-based models)可能比深度学习模型表现更优,并且计算成本更低。

Q2:小样本数据可以考虑谷歌开源的预训练模型,据说效果不错,您尝试过吗?

A2:是的,我使用的正是谷歌的开源模型,效果确实很好。但如我之前所提到的例子,当数据量非常大时,处理速度会显著降低。对于几万条数据,可能 30 分钟内能完成处理,但若尝试用谷歌开源模型处理几千万条数据,则效率极低。因此我建议结合关键词搜索和语义搜索的方法,先通过关键词筛选缩小样本规模,然后再交由谷歌模型处理。

Q3:对于数据质量有什么好的评估方式?设计数据一直是痛点。

A3:这个问题与 AI 关联度不高。数据质量评估方法取决于具体数据类型,不同类型的数据有不同的质量衡量标准。不过,确实可以利用 AI 提高部分数据质量,例如我之前提到的分类编码(category code)中存在的乱码、空格或拼写错误(typo)等问题,可以让 AI 协助改进这些部分。

Q4:有什么垂直领域(垂类)大模型的评估体系?特定行业的模型,例如医学、金融等领域的专业模型。

A4:这实际上是我之前提到的从预训练通用模型到专业模型的转化。专业模型需要特定领域知识进行训练,以提高其在该领域的表现。

以上就是本次分享的内容,谢谢大家。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

分享嘉宾

INTRODUCTION


数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

徐萌

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

Snap Inc.

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

Tech lead of core data science

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

徐萌是 Snap Inc. 的 Tech lead of core data science,她从北京大学元培学院获得经济学和法学学士学位,从加州大学洛杉矶分校经济学系获得博士学位,其后加入了Snap Inc.,专注于利用观察数据进行因果推断。她的研究兴趣在于因果推断(Causal Inference),包括加权平衡方法(Balancing Approach)、合成控制(Synthetic Control)、因果中介分析(Causal Mediation Analysis)、因果机器学习(Causal Machine Learning)、随机对照试验中的选择问题(Selection Problem)、分位数回归(Quantile Regression)和方差缩减(Variance Reduction)。

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来
数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

往期推荐


面向在线营销场景的高效 Uplift 方法

Agent的原理与路径” data-recommend-article-content-url=”https://mp.weixin.qq.com/s/c9oc8gqG4ZtQx8u17ulJzA”>

全球20+标杆案例,讲清楚从ChatBI到Data Agent的原理与路径

第二届隐语杯数据挑战赛”,即将扬帆起航!

平安人寿的AI赋能数字化运营实践

大模型驱动的 DeepInsight Copilot 在蚂蚁的技术实践

Shopee 在 Alluxio 加速 AI 训练的实践与探索

无需等待:电商领域重排模型在线学习可以先于用户反馈

大模型制胜宝典:解密AI高效访问策略

罗氏生成式AI基础架构构建经验分享

4 年融资 1 亿美金,ProtonBase 王绍翾揭秘 Data Warebase 核心技术

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

点个在看你最好看

SPRING HAS ARRIVED

数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

© 版权声明
THE END
喜欢就支持一下吧
点赞84 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片