单源法律技术新教 电子发现 和人创新后场

识别非二进制数据使用AI如何最小化偏差

Sean Lynch-Rich-Canada

偏向问题常出现在法律界事实上,所有法律事务参与者常引起对实际和感知偏差的关切。无论是律师、陪审团、法官或检察官的偏向感知不公都会影响法律程序的理解和结果不可否认:偏向破坏原则并应用任何理想公正法律制度

另一层偏差我们不常讨论:AI使用偏差法律人工智能和机器学习工具世界无法避免人造偏差,如果有的话,可能更容易偏差,因为我们训练模型的方式在机器学习的法律应用中,使用律师工作产品培训模型确认文档总体上响应或不响应问题人类律师对文档的反应可以颜色判断响应性教程与文档中所含数据的关系和经验会影响响应编码方式

举个例子,我曾审查一公司欺诈控件 由一夫二妻经管一位审核员编码妻子寄送的许多邮件无关,尽管这些邮件显然无关紧要。问他为何做这些事,尽管这些事相关,他说:“我只是认为,如果这些邮件是妻子的邮件,那不重要。”表示所有事都经过她丈夫, 所以他的邮件无关紧要而她的邮件无关紧要。

大规模法律评审中收集并使用的数据就其性质而言往往偏斜文件可选樱桃并忽略整体数据集关键组件,因为选择器、教程和算法认为内容太小或太微小,无法进一步审查举例说,由于识别和收集与诉讼潜在相关数据相关成本高,律师往往会尽力将搜索相关文件的焦点放在那些查找术语上,这些术语将点播那些潜在相关信息。e-descript努力中支持均衡性然而,我们选择这些术语的过程可吸引偏差举例说,忽略搜索词列表中排除女性网站管理员名

以上例子比影响AI模型培训的隐蔽、无意识偏差更加明目张胆和易识别性证明恶意并非制造 偏向结果从法律评审过程产生

2019年,艺人Jake Elwes创建了名为 "齐-排队数据集提醒注意AI工具难度有限或混淆数据并微小Elwes使用数据集训练面部识别系统并添加1,000图象在线发现拖动和性别流水面孔图像生成面部无法从原创数据中找到Elwes从规范身份移出显示人工拖动配方应用到不同个体的图片工作本意是要挑战许多面部识别工具工作二进制方式,证明数据集所包括和不包括的东西,以及我们如何编码它,对生成产品产生深远下游效果

从中流出,人们可能会问:法律AI分析中接受非二进制值是什么?简言之,值在于发现灰色区域,微调,数据集未探索区域-识别工具不一定总能完全正确

o/no,正/负二分选择过程往往排除微分分分解分解法,这些分解分解法触及适切性和非适切性之间的流畅性领域运行AI驱动审查时, 我们几乎总决定“切除”数据集, 并低于一定关系评分-说明分下的东西不在模型范围内,法律界很难保持黑白文字的外观, 但却能轻易地置身事外, 忽略我们许多法律中 — — 以及我们大多数法律先例中 — — 所蕴含的巨大细微度、弹性和常时敏感度 — — 并肯定地置之不理。

Meredith书中Bruussard多点Glitch表示可使用调控沙盒查找特定AI模型中的偏差sandbox相似于其他技术沙箱:开发商和用户可以搭建、玩耍、调整和评价模型后再将其推广使用的地方我相信,这是一个有用的起始点 如何测试实现AI工具法开发商和构建者测试AI算法当然很重要, 以确保它不偏向性, 但我们法律AI用户如何保证 AI算法内构建培训模型不偏向性?

解决办法是在整个过程挑战模型举例说,我们中使用AI法律文档评审者熟悉质量控制流程,并确保我们的审核团队正确一致编码文档求一致响应调用 特权之类但我们需要跨出一步,超越模型所决定的基于所接受培训的响应性法律应用很少黑白分明(尽管我们可能希望如此)。挑战模型并调查偏差-如Bruussard表示我们在建模阶段沙盒中做-我们可以寻找模型训练偏差-

那么,我们如何做呢?作为律师和法律专业人员,我们的目标是求真正因如此,我们的重点应放在那些文件上,而那些我们训练模型排除出响应集的那些文件-如上所述,那些文件不在截取分数内。运行文档集统计样本查看模型排除的内容看是否有响应文档, 并使用附加分析工具查找排外文档集中基本相似文档仅仅因为文档低于截取分数并不意味着模型正确排除它

使用团队进行质量检验是有价值的, 而不仅仅是一位评审者-我们不希望单列一组偏差来自一位评审者对降低数据集偏差目标产生消极影响与我们工作生活的许多其他部分一样,带入多组审核员和教官也有助于减少偏向性

通过识别并评价数据集外部线,我们减少缺失算法可能不认为值的东西的风险非二进制编码可能看起来不“客观性”, 因为它识别并试图控制偏差, 偏差不仅存在于数据集中,还存在于模型本身中。

推进程探索看似无关紧要-人少-正负级阶小端-像Elwes的工作-Unites全数据分析并承认这些文件的价值

相对性构建适用AI模型以提供情感分析

Sean Lynch是Richh加拿大客户策略主管,并定期讲解机器学习的实用性、信息治理策略的目的和重要性、网络安全、人工智能、文件评审和诉讼准备