智媒时代下对算法偏见的研究:构成、机理与策略文献综述范文
智媒时代下对算法偏见的研究:构成、机理与策略文献综述
(一)国内研究现状
本论文将涉及几个概念,包括算法推荐、算法偏见。以CNKI 数据库的文献数据为参考,通过对以上两个重要概念进行搜索关键词,筛选符合要求的研究记录。
1. 关于算法推荐的研究
所谓“算法”,是解题方案的准确而完整的描述,是一系列解决问题的清晰指令,能对一定规范的输入在有限时间内获得所要求的输出(吕国英,2006)。而算法推荐就是指使用算法技术,将海量用户的网上行为和发布的信息进行数据化,进而挖掘用户的爱好习惯和社交兴趣图谱。它的主要任务就是匹配用户和信息,让每一位用户都能最快、最便捷地获取自己最需要的信息(李潇涵,2020)。
根据知网搜索功能对“算法推荐”进行检索,学科限定为新闻与传媒,共计318条搜索结果。国内对于算法推荐的研究始于2014年,并且研究相关文献逐年呈增长趋势,在2018 年相关文献已达64篇、2019 年更是高到115篇,呈现持续增长趋势。多数文章是围绕算法推荐发展现状和发展策略地研究。笔者对算法推荐的相关文献做了以下几个方面地梳理。
1)对算法推荐客体影响的研究
一是对算法推荐的消极影响和反思方面的研究。很多学者从算法设计入手,探讨算法与新闻在生产模式上的联系,进而分析算法新闻推送对新闻伦理产生的不利影响。算法推荐新闻对新闻专业主义有着如下几种伦理挑战:首先是内容过滤与客观性、真实性产生矛盾。算法只是将类似的新闻报道进行整理呈现,但却缺少质量评估,因此会更容易出现新闻失实、标题党等新闻乱象,影响新闻的客观性和真实性。其次,新闻分发中监督力度不足。今日头条为代表的新闻资讯客户端,没有严格的内部审核机制,那么很容易将不规范的新闻报道分发给受众。最后就是算法推荐新闻如今缺乏主流价值的引导。算法的长期推送强化了用户固有的认知,以至于很难接受其他信息。如果这种认知本身违背主流价值,那么容易使其得不到有效的纠正,产生知识鸿沟。长此以往,主流价值观得不到有效的传播,社会共识的凝聚也会愈加困难(王智豪,2020)。与此同时,也有学者从个人信息权益遭到侵犯的角度来分析算法推荐技术的伦理风险。算法新闻推荐蕴藏着侵犯个人信息权益的风险。首先,算法新闻中存在隐匿的强制性告知与同意,受众在使用新闻的时候不得不接受新闻的强制性要求。其次,算法新闻中存在着对个人信息的再利用与他用,也在一定程度上侵犯了受众个人权益。最后,算法新闻在精准投放信息的过程中,存在着对受众个人隐私的侵犯(李宁,2020)。艾岚等学者也在其文章中论述了算法推荐技术对受众隐私带来的隐患,“受众所享受的媒介服务是以个人信息来换取的,算法技术将受众的网上“痕迹”进行整合,生成用户画像,受众就像是生活在圆形监狱之中的囚犯。算法推荐系统掌握着全部受众的个人信息,假如此系统遭遇外来入侵,那么所有受众的隐私将完全暴露。”算法推荐技术所带来的新闻分发方式的改变,不光影响了新闻生产方式,还在价值观层面对社会产生着一定冲击。首先,精准的推送会导致信息窄化,出现“信息茧房”效应。人工智能技术为受众过滤掉大量的无效信息,受众可以只看到其想看到的信息,将其不感兴趣、不熟悉的信息直接过滤掉,大大加强了信息推送的有效性,但这也导致了受众长期沉浸于同质化的信息中,导致信息窄化现象严重。其次,算法推荐技术会造成受众的过度依赖,进而沦为算法的奴隶(艾岚,2020)。由于算法推荐新闻对内容有绝对的控制权,通过只为受众推荐其感兴趣的内容,就可以使其极易依赖于这种新闻模式,进而逐渐成为算法推送工具的“奴隶”。
二是从算法推荐的积极影响及重构方面来进行探讨。算法推荐技术在发明之初,是以其个性化的推送方式著称,伴随着技术发展以及新闻生产理念的革新,算法新闻的推送方式逐渐实现了从“个性化”向“人性化”的转向。
其一,它是一种在“个性化发现”基础之上对用户消费行为进行的深层次解读,比如,它不仅考虑到读者的内容偏好,同时还考虑到用户的阅读情境;其二,在信息过载的时代,对生产者来说,用户的注意力资源是稀缺品;然而对消费者来说,稀缺的是具有品味的优质信息,人工编辑的加入可以让推荐更具“人情味”,更加符合用户的期待。其三,“人性化”终究要回归到用户本身,把选择权交给读者,否则受众只能被动地依赖算法来消费内容,陷入另一种“困境”(李唯嘉,2020)。
总之,智能技术应用到新闻推送领域是大势所趋,媒体平台也在不断改进新闻的推送方式。算法推荐新闻会引发一些伦理方面的问题,但与此同时,也促使着媒介技术理念的更迭和进步。要想避免这些伦理问题,首先要做到的就是在优化算法技术的同时,逐渐回归人类在新闻推送过程中的主体性角色,保障受众的权利。
2)对算法推荐本体的多层面研究
有关于这一方面的文献主要是着眼于算法推荐技术本身,就技术本身的发展历程和实践原理来分析算法新闻的相关议题。
算法推荐新闻依托于计算能力、数据与大数据以及算法模型这三方面,其中数据是人工智能得以成长的物质基础,今日头条将自己定位于“基于数据挖掘技术的个性化推荐引擎产品”,也说明了数据在算法新闻中至关重要的地位。大数据所具备的精准智能价值匹配的特性,将人与人、人与物、物与物之间的关系进行崭新的重构,在这样的作用下,传媒社会整合、塑造意识形态、集成社会经济空间也在不断延伸(喻国明,2017)。在这样的前提下,我们可以把算法当作一种权力范式来进行研究。英国文化研究专家斯科特·拉什强调:“在一个媒体和代码无处不在的社会,权力越来越存在于算法中。”人工智能的技术本质是算法,而算法的社会本质则是一种权力,控制着整个社会。
在大数据时代,数据与算法正在重塑新闻业的整个生态系统。喻国明、杨莹莹等学者对算法在新闻线索获取、新闻写作编辑、新闻事实核查以及新闻分发与推送这些新闻环节中的权力体现进行了具体分析,并考察了媒介和受众的权力变化过程。算法技术如今应用在新闻生产的全环节中,受众的权力也随技术的发展而有所变化,具体体现为信息权在线索获取阶段有弥散化趋势,把关权力在新闻写作编辑阶段被收编,受众的自由度在一定程度上被窄化等。
3)对算法推荐引发伦理问题的发生机制的研究
有关于这方面的文献侧重于分析算法新闻产生诸多伦理问题的背后的原因。算法分发新闻模式背后存在的多重力量:经济力量是源动力,技术力量是直接推动力,政治力量是前进方向的规制力,社会力量是算法分发技术改进的反作用力(张荡,2020)。正是因为算法技术在运作时会受到来自多方面的限制,算法无法成为绝对中立的技术,其背后所代表的政治、商业等利益,往往会让算法产生诸多伦理问题。只有对其背后存在的经济力量、政治力量、社会力量和技术力量进行深入且全面的认知研究,将会使技术得以更好的服务于人类,技术的发展方向也将真正为人所把握。
2. 关于算法偏见的研究
国内对于算法偏见的研究始于2016年目前对于算法偏见的研究还处于初期阶段,相关的文献内容较少,在知网中以算法偏见为关键词进行检索,有65篇相关文献,鲜有比较系统性的研究成果。笔者对算法偏见的相关文献做了以下几个方面地梳理。
1)算法偏见的发生机制和内在原因
算法偏见是指算法技术应用于信息生产与分发过程中,由于算法设计,输入数据,技术局限等因素造成的算法决策不客观、不公正的现象。简而言之,算法偏见是指违反公认的规范、法律或道德原则而对数据进行有偏处理。有关于算法偏见的发生机制,方师师就曾以facebook运作机制为例,分析了2016年facebook偏见门事件,挖掘算法偏见发生的内在原因。Facebook公司为了提高算法的精确程度和用户体验,设置了一套协同过滤机制,也就是吧让算法工程师定期对亿万的点赞、评论和点击进行重估,使之更为有用,而他们的评估都会反馈给Facebook加州总部,供新的算法来参考调整新闻推送的准度和精度。这种机制再提高用户体验感的同时,也会导致信息操控,当受众发现“趋势话题”是由新闻团队操作的,再编辑打扮成新闻的样子,就会感到受到了欺骗,因为谁也不能保证这些算法工程师的客观公正性,算法偏见的风险也由此产生。
算法在进入实际应用前,要经过问题的定义、数据的输入、机器的学习和训练等环节,而设计者自身的价值判断、数据所隐含的社会倾向性等因素贯穿了算法的整个过程。因此许向东、王怡溪等学者将算法偏见定义为了社会偏见的延伸,也是媒介偏见在人工智能时代的升级版。也就是说算法偏见之所以产生,是因为我们身处的社会本身就存在着很多偏见,而算法偏见只不过是新闻偏见在新媒体时代的最新表现。算法偏见具体会产生于运算规则设计中、数据收集处理及运用中,以及运算过程中。
2)算法偏见客体影响的研究
个人传播的信息或观点中隐含了偏见,只会影响少数人或部分人,而算法一旦存在偏见,则会在短时间内将错误信息推送指众多用户,其危害也会更大。从新闻信息传播的角度来看,算法偏见的影响主要表现在以下几方面,首先是背离了公平公正的新闻职业规范,新闻媒体要求公平公正,算法偏见作为一种预设的态度,将错误或偏颇的判断融入新闻传播活动中,便违背了新闻的职业规范。其次是挑战了用户知情权和信息选择权,算法推荐在满足用户个性化需求的同时,也窄化了用户的信息接触面,形成较为封闭的空间,增加了出现“回音室效应”的风险,这便消解了用户的权利。最后是算法偏见易于解构社会共识,引发舆论风险。算法与社交媒体的结合突破了主流媒体对传播渠道的垄断,体现了个性化和利益相关性,削弱了传播的公共性,影响了主流价值观的构建,很多非理性、煽动的信息传播打着个性化的旗号,解构了主流的社会共识,埋下了引发公共舆论的潜在风险(许向东王怡溪,2020)。
算法偏见对刑法领域构成的挑战,主要集中在算法偏见本身导致的犯罪行为和算法偏见对刑事审判系统人工智能化的威胁。如今的人工智能发展还不够完善,所依据的数据可能会带有一定偏向性,如果法官所用来的参照信息经人工智能系统处理过本身就发生偏差,那么得出的结论则自然就带有导向性,那么也就有违于司法公正(陈洪兵陈禹衡,2019)。
3)对算法偏见的规制和防治
对于算法偏见的治理,要从法律法规、职业伦理等多方面进行布局。首先,要从法律法规层面规约算法设计者和使用者。如今算法越来越多的参与到人们生活的决策中来,因此需要有相关法律法规对算法是否存在歧视性偏见进行评估。在这个过程中,无论是算法的设计者还是使用者,都承担着自己的责任和义务(许向东王怡溪,2020)。市场监管部门硬定期和不定期的对企业运营情况进行审核,监测算法的运营情况。如果算法使用者因算法偏见等问题,损害了受众的利益,相关部门可以参照法律对其给予惩罚(刘友华,2019)。
其次,要以“技术之力”消除“技术风险”。可以考虑将公平公正的原则这一观念,嵌入到机器学习中。所谓机器学习,是指利用一些数据,通过训练摸索出规律,来分析未知的数据。如今人工智能有着逐渐替代人类决策的趋势,那么如果可以从技术层面在机器学习的过程中嵌入“机会平等”的概念,则会大大提高人类决策的工作效率和公平度。
最后,要建立第三方审核机构,强化行业自律。美国计算机学会公共政策委员会在2017年初发布了《关于算法透明度和问责制的声明》,帮助第三方对算法的伦理问题进行规制。通过行业内的自我监督和引导,或以行业公约的方式来规范行业秩序,有助于预防算法的偏见与歧视。
(二)国外研究现状
笔者在社会科学引文索引(SSCI)核心合集以“Arithmetic”、“Algorithm bias”为主题词,研究领域限定为“COMMUNICATION”、“SOCIAL SCIENCE” 进行搜索,共搜索到65篇文献,经过研读发现目前西方学界对“算法偏见”关注的领域主要包括以下三个方面:
1. 对算法偏见产生的原因以及本体性研究
美国学者罗伯特·塞里诺认为媒介媒介偏见存在于新闻来源中、新闻省略中、新闻选择中等十三个方面,并提出媒介偏见在新闻生产中是不可避免的。“一篇报道是知情者和已知的事实的混合产物,观察者在其中的作用总是带选择的,而且通常是带想象的。”(李普曼,1922/1984:51)自动化的新闻信息生产过程就是“在没有或者有限的人类干预下,由预先设定的程序将数据转化为新闻文本的自动算法过程”(Carlson, 2015),算法偏见就是在数据转化为新闻的这个过程中产生的,而算法偏见是新媒体时代媒介偏见的新表现。
美国学者巴蒂娅·弗里德曼和海伦·尼森鲍姆认为算法存在三种类型的偏见:先存偏见,即算法偏见根源于带有偏见的社会制度;技术偏见,即认为算法偏见是由于技术的限制;突发偏见,即由社会价值观的变化而带来的突发性算法偏见。
对于算法偏见产生的原因,很多国外学者将目光集中于数据的处理和运用过程中。纽约大学教授丽莎·吉特曼(Lisa Gitelman)在《原始数据只是一种修辞》一书中指出:
数据从来都不可能是原始存在的,而是依照一个人的倾向和价值观念而被建构出来的。我们最初定下的采集数据的办法已经决定了数据将以何种面貌呈现出来。数据分析的结果貌似客观公正,但其实如同所有新闻报道一样,价值选择早已贯穿了从构建到解读的全过程。最终的结果看起来很无私,但实际上从构建到演绎的整个过程一直伴随着价值选择。
这就说明,不管算法使用的数据多么标榜客观公正,其内在都会包含一些具有价值偏向的内容,进而导致算法新闻的偏见。
2. 算法偏见对新闻传播的影响
从对社会价值观的冲击方面来看,算法偏见渗透于新闻信息的生产与传播的过程中,其所带来的主要有认知偏见和道德偏见,认知偏见是指个体的认知与社会认知和社会现实不符;道德偏见则是社会知觉或态度与某一群体或社会所拥有的公平原则之间的不一致(Sun,1993:1152)。算法偏见借助于新媒体传播的放大效应,会以更迅速和在更大范围内的传播,其危害便是容易造成信息传播的混乱,误导社会舆论,进而导致社会冲突和隔阂。
从对受众的权利影响来看,“能用技术熟练驾驭新闻发布渠道的新一代媒体人,对有关现有和潜在读者的海量量化信息重度依赖,认为读者是‘算法受众’,这些人有着极容易识别的需求和欲望,用合适的算法很容易就能识别并给予满足。”(莫罗佐夫,2013/2014:168)但是受众的信息欲望能够更容易的满足的同时,其接收信息的质量却越发无法得到保证,也就是如今的媒体突出了用户“欲知”的诉求,而忽略了其“应知”的诉求。
3. 应对算法偏见的策略
关于解决算法偏见的策略方面,国外学者多将目光集中在了增强算法透明度方面。算法的透明度问题本质上也是新闻生产的透明度问题。算法自身的复杂性再加上无法洞悉的“算法黑箱”的存在,增加了公众对算法的设计原理、运行逻辑的理解难度。
算法的透明度不仅牵涉新闻生产流程的“客观性”“公平公正”,而且关联着公众对新闻媒体及其产品的信任。因此,随着算法在新闻生产、新闻推送的应用日渐增多,面对的作者的困惑和不愿披露的算法过程,“透明度”越来越多地被用作新闻合法化的规范基础,透明度不仅可以对算法进行有价值的检查,还可以提高算法对道德、文化和认识论等的影响力(Carlson,2018)。
三、国内外研究现象综述
“技术比任何其他东西都更能定义它们所描述的时代。”(阿瑟,2009/2014:81)算法作为一种新兴技术,一定程度上代表着我们这个时代的发展现状,技术的影响是双面的,我们在享受算法为我们带来的便利的同时,也不能忽略算法偏见这一负面问题。通过对国内及国外有关算法偏见的文献梳理,可以大致得出以下几点结论:首先,国内外的学者都将研究重点放在了算法偏见出现的原因、算法偏见产生的影响以及算法偏见的规制这三个方面上,但侧重点有所不同,例如在规制方面,国外的学者比国内的学者更多也更为详细的阐释了算法透明度这个概念及其重要性。
其次,国内学界对算法新闻方面的研究颇为深入,尤其是2015年之后,文献数量持续增长状态,但是对于算法偏见的研究,相较于国外学界,国内学界暂时处于起步阶段,相关领域的研究数量较少。
最后,通过总结国内外研究成果,可以看出如今对于算法偏见的研究还存在着这样一个问题:对算法偏见的研究停留在宏观的理论阐述层面,实践性和操作性不强。如:林爱珺《智能新闻信息分发中的算法偏见与伦理规制》解释了算法偏见的产生原因和规避路径,但是主要停留在理论阐释的层面,而没有引用可供佐证的现实案例。