科技产业报订阅
活动+
 

LinkedIn善用AI侦测不当内容 防假帐号与系统滥用

社群平台利用机器学习技术来侦测和移除不当内容已是趋势,LinkedIn也不例外。法新社

许多业者采取的传统商业模式,已渐渐过渡、开始应用新兴科技,热门职业社群平台LinkedIn也不例外,该公司透过机器学习技术等方式来帮助专业人士。

据Analytics India Magazine报导,以商务和就业为导向的LinkedIn,平台资料量之庞大可从用户数窥得,报导指出,该平台在200多个国家地区共拥有约660亿名会员,每月有3.03亿活跃用户,平均每秒有2人在上面建立帐号,每年便有约6,200万个体用户。

面对这样的资料量,LinkedIn开发人员致力于强化机器学习模型,构建Domain-Specific Language(DSL)和交互式记事本系统Jupyter,集成经筛选的条件并使其易于调整参数,进而让职业媒合推荐系统的演算结果更为准确。

改善媒合系统外 更防止系统滥用

LinkedIn如同Facebook、Twitter等社群媒体龙头,利用机器学习技术来侦测、移除不当内容已成趋势。为了自动侦测和纠正违反公司服务条款之行为,并维护社群的互信基础,LinkedIn这样的职业平台已在使用能够侦测假帐号与系统滥用的技术。根据以往报导,在2019年1~6月,LinkedIn已对2,160万个假帐号采取惩戒措施。

处理含不当内容的个人档案,LinkedIn机器学习团队所改良的方法也功不可没。LinkedIn机器学习团队一开始采用的方法为建立辨识字汇与词组的黑名单,当帐号包含不当文字内容,将会被视为诈欺,并从LinkedIn中移除。然而 ,这样的方法有一些缺点,关键字违规与否仍需以人力评估,尤其是判断上下文、逐句检查追踪需要花费大量时间成本。

该团队决定改善机器学习方法,以机器学习模型根据会员个人档案内容训练而成的文本分类器,研究人员建立训练数据集,将帐号分类为适当与不适当。此外,该模型还利用了深度学习架构卷积神经网络(CNN),CNN在分类图象和文本等任务上的表现特别出色。

机器学习模型面临的挑战

LinkedIn团队在建构模型时,面临建立训练数据集时信息量是否充足的困境。训练数据的分类卷标撷取的来源为先前因诸多原因而停权的帐号,若用这些卷标训练新模型,便会在重新学习既有系统模式时带有偏见。

为了解决这项问题,该团队透过分辨高误报率的问题关键字,从包含这类词汇的成员资料库中取样并未违规的帐号,最后再以人力方式标记帐户,并将其添加到训练数据集当中。


  •     按赞加入DIGITIMES智能应用粉丝团