苹果的秘密，如何打赢十亿美元的官司

zhixun · 发表于 2012-12-10 18:41:43

陈明发布于2012-12-10 09:00:04

今日，在美国加州西部城市圣何塞的联邦法庭上，苹果公司试图利用今夏十亿美元的与三星公司的官司胜出这一机遇，宣称三星公司还有六项产品设计抄袭了他们的创意，其中包括很受欢迎的三星银河机三代。
为了证明韩国的手机制造商是怎样有意窃取苹果公司的创意，律师们必须在三星公司上千万的内部文件中挑出“让我们抄袭苹果吧”的痕迹，而这些文件数量太过庞大，任何律师团都没办法手动分类处理，除非斥巨资来解决。这样一来，当这个价值十亿美元的官司悬于一线时，像三星和苹果这样的公司就会转向使用一种适用于法庭的相对新型的人工智能技术来证明谁是谁非。
这种技术就是计算机取证（指运用计算机辨析技术，对计算机犯罪行为进行分析以确认罪犯及计算机证据，并据此提起诉讼）。计算机取证用以攻击后，商业界的分歧也就大了。
只要一个Linux（个人电脑免费操作系统）机器和一些开放源代码的机器学习软件，公司就可以着手高风险的依照数据处理的法律诉讼，近期，这类诉讼十分昂贵且诉期长，在法庭上也亟须谨慎。但在法律圈很出名的“预测编码”，对任何想要估量其所知多少、遵守金融调节、颠倒设计以及完成合并的公司来说，都是一种福利。由于这个软件是基于开放源代码的项目，几乎每一个都能使用它。“预测编码”就是这样运作的。
机器学习是怎么引起诉讼的
2009年，乔脠比受案件受托人欧文皮卡尔所托，领导击溃了伯纳德麦道夫“黑盒子”服务器的团队，查证麦道夫650亿美元的交易是否属实。从纽约时代广场上方高处的办公室里，鲁比可以看到附近的舞蹈教室，那里有百老汇演员在排练他们的演出。办公室的窗户给鲁比观看舞蹈排练提供了可能，而预测编码也为他的富通咨询公司实践中开启详尽的辩诉之窗。
“好事正在发生哩，”鲁比说道，“法院开始认可预测编码，并开始训练使用信息检索机器，这可比手动快多了。
“信息检索”（简称IR）过程，即法律诉讼的第一阶段——侦察，若使用电脑则称为“电子侦察”。通常，小的律师团必须手把手梳理文件并寻找适当的模式。有了信息检索，他们就可以先审查一小部分，然后把这一小部分作为样本让电脑来完成剩下的工作（鲁比认为，各种各样的机器学习技术被用于麦道夫调查研究，但很难指定使用哪一种）。
“每个案子都是不同的，所以很难估计信息检索能节省多少时间，”鲁比说道，“但是如果我们合理假设，给两个相似的团队一样的时间来搜索一百万份文件中的信息，使用信息检索机器的团队完成任务的时间应该只有手工团队的三分之一。”
节省的成果是很可观的。鲁比估计：“我们的客户在此类案件上节省的花费也有数十万美元，甚至多达到上百万。”自从公司就直接解决还是提起诉讼开始进行成本效益分析后，机器学习则意味着有意义的诉讼和无意义的诉讼之间的区别。
电子侦察给了三星和苹果重重一击
电子侦察已经使用数十年了，但只有今年它才在重要诉讼案件中发挥实质性的作用。预测编码太过新型前卫，而对其的无知直接导致三星公司今年夏天官司的失败。法律网（Law.com）7月31日文章的导语段落便是有关这次诉讼。
今年电子侦察最戏剧性的鉴定结论之一…… 美国加州北区地方法院法官保罗格雷瓦尔据陪审团指示作出了对三星公司不利的推断，认为三星公司没有采取充足的步骤成功阻止相关邮件的毁灭。
“陪审团指令不利推论”很糟糕：那意味着三星公司因试图隐藏证据而被法官严令直面陪审团。据法律网公布，法官陈词如下：
三星公司未能阻止为苹果公司使用的相关证据的毁灭
证据被毁是因为三星公司未能履行侦察义务
陪审团“可能假定”丢失的证据用于审判且对苹果公司有利
为什么法官如此愤怒呢？因为三星没有为电子侦察做准备。三星犯错在所有的企业电子邮件都设有一个有效期，这就导致这些邮件每两周就会自动删除一次。法庭认为，问题在于三星早在2010年就知道这样可能将面临苹果公司的诉讼，但却从不关掉自动删除程序为自动侦察程序开路。这样毁灭证据也叫做“电子侦察抢劫”。
即使电子邮件系统有这么一个两周一次的自动删除机制，三星公司仍然向法庭提交其他方面的一千两百万页的文件，为众多法律诉讼案件都要求的信息检索提供标准检查程序。
反正三星还是输了。不过这“不利的干涉指令”也可能已经决定了这次结果。唯一拯救三星于早期绝对损失的一件事是，随后苹果公司也因为同样的原因被法院处罚——由于苹果公司电子邮件限额政策的电子侦察抢劫，实际上强迫员工手动删除较旧的内部沟通记录。
你的公司要怎样使用预测编码
别担心。即使你没有打数十亿美元的官司，预测编码也是种杀手级技术。这些编码的目标是大量文件审查，公司可以拿它来做许多事情。这项技术是万能的（且具法律用途），因此微软公司已经把电子侦察功能加到2013年SharePoint门户站点，为辩护律师和专家在门户站点搜索资料以及交换信息资源以找到相关文件提供了可能。
就在本周，于德国法兰克福市的发现大会上，惠普公司发布了一个网络应用包。那是给企业服务器充当模块化的电子侦察组件的。商业期刊ChanneelBuzz上发表了以下看法：
惠普公司自主促进部门总经理拉菲克穆罕默德说道，当一个企业从电子侦察解决方案上得到的好处多种多样，这都取决于某些国家好打官司的性格。由于电子侦察的调度性、客户化以及最优化牵涉利益于其中，这为方案供应商的加入提供了有利的空间。而且这机会并非完全取决于公司规模的大小。实际上，穆罕默德说在事业初始阶段，当他还是五人咨询组织的一员时，他就很清楚知道卷入专利诉讼所要付出的一切。
鲁比觉得，即使微软和惠普的产品不停地投放市场，预测编码（人也参与其中）在两家公司中仍属于“未开发的信息管理领域”。大多数公司可以使用预测编码来拯救过多的仓库存货，而不用像三星和苹果那样打巨额官司。
“公司可以用预测编码来鉴定并选择性删除电子文件，”他说道，“公司往往什么都不愿意删掉，他们觉得删除任何一个都可能触犯到法律禁区。但是这种电脑模式可以被设定删除那些看起来法律诉求不需要保留的文件。”这样做的好处不单单是节省大量存储和备份的开支，也使数据泥沼遗留系统的“云迁移”更为简单。
鲁比认为，在并购企业，预测编码可以帮助公司迅速找到、审查、归类联邦贸易委员会要求的文件。委员会据此检验这些文件并评定提出的并购是否有反竞争效应并最终伤害消费者的利益。这预测编码就是这么用的。
法庭案件背后的技术
为了使其成果在法庭上具有可辩护性，富通公司的预测编码机制还有其他两个部件：由内部统计员建立的统计分析机制以及使相似文档聚集在一起的“文档映射”技术。但如果你不是在做法律工作，对正在使用中的应用程序进行预测性探索就变得更为简单了，这还得多亏了名曰Vowlpat Wabbit（VW）的源代码开放程序库。
VW，正如名字的缩写显示的那样，是富通公司预测性侦察产品的基础，且最初是在雅虎研究院得到发展的，然后是在微软研究院。其目标是：允许非专家工程师组成的小组建立一个可快速学习、有扩展性且基于网络的学习引擎，这个引擎可以使用任何格式进行文本输入并且用“配对引擎”给文本排序。微软公司的约翰瀠轑德主张进行这个项目，因为它可以仅仅使用便宜的Linux操作系统就可以处理数千万份文件。人们可以在Github知识库里找到密码和文档。
用浅显的语言进行机器学习
初始学习过程是很老套的：一个律师团从所有文件中拿出一份样本集，然后一个个审查。样本的数量要达到律师团觉得它具有代表性的程度，并允许有1%的公差。
当每一个样本被鉴定为相关或者不相关以后，这些文件就会被放入预测编码软件，该软件是通过判断所有的词和词组（也称为“杂乱信息”），或者一到三个字的组合词的重要程度，记上“权重”，并且在通常是关键词的地方记下符号，来审查所有的样本并搞清楚专家们是怎么判断文件是否相关。这些“杂乱信息”和符号往往能够明确指出相关的文件为正权，不相关文件为负权。

接着软件会检查它是否达到人类的标准：回到样本集挑选一份文件把权数相加。这个权数便用来判断文件是否相关，接着该软件会把结果跟律师的结论作一个比较。假如判断错误，那么预测编码软件会重新考虑每个部分应该加多少权重。当样本集里的每一份文件都这么处理过之后，这个软件会继续“学习”怎么记上正确的权重，以期符合专家的判断。
这个程序可以在样本集中重复好几次来提高其判断准确度。这样一来，用关键词搜索一堆文件就有了真正的优势。一个关键词搜索就只是寻找少数项目了，而不是每一条都看过去并且都去判断其重要性。
当权重被适当调整后，该软件会重新仔细阅读整个样本集，并用这个新的标准筛选相关的文件。结果当然不会百分百符合，但误差是可以调整的。我们再来看看权重吧：所有用来判断文件是否相关以及决定“判断线”的权重都是任意的。这么说吧，如果一份文件要求总权重大于零才可判定为相关文件，那么软件就会挑出专家认为相关的文件其中90%，而把剩下的10%判定为不相关。挑出来的相关文件的百分比称为“撤销”，如果判定线设在较高权重值上，那么这个百分比就会拉低判定线。
我们如果把比值定高一点，就高0.3吧，用80%的“撤销”就可以改变结果，拥有70%的精确度。由于他们都反依赖于该软件挑选出的文件数量，因此这两者之间通常都有一个交易。预测编码软件通过判断每一个可能的权重值来审查，并挑出最符合该精确度的值，撤销律师寻求的参数。然而，与其他方法相比，预测编码软件还是有更高的准确度和撤销比，上面提及的交易也可以很容易检验和管理。比如，只有在人为改变输入的反复实验过程中，关键词搜索的精确和撤销才能被调整。
最后，预测编码软件把其改善的权重值和判定线应用到所有文件的选择上，减少了需要人检查的文件数量，比如，从一千万份减到了数千份。要完全相信成果的质量，律师可以从软件生成的相关文件和不相关文件中挑一些文件（通常是从几千份中挑的）看，评估软件是否符合预期。
这种人工智能可以管理法庭和公司吗？
预测编码是人工智能年鉴上是作为“监督性机器学习”而出名的。富通公司能有效使用是因为它加入了人工训练、人工检查和统计推断。“华生电脑系统（Watson）能做好这活吗？当然了，”鲁比说道，他指的是打败了最大赢家使用自然语言的IBM个人电脑布拉德脠禜豲肯礠膊斯，“但你还是得好好训练Watson.”（译者：郑淑娇）
文章来源：FastCompany

		自动登录	找回密码
密码			立即注册

苹果的秘密，如何打赢十亿美元的官司

浏览过的版块