大数据增长速度超过当前计算机程序可以跟上的速度,GET SMART 计算机科学家Anshumali Shrivastava正在设计巧妙的方法来帮助计算机程序更智能地工作,而不是更难。世界充斥着数据,而Anshumali Shrivastava可能会让我们免于溺水。
每天在线发布超过10亿张照片。在一秒钟内,大型强子对撞机可以产生100万千兆的观测值。大数据的膨胀速度比目前的计算机程序可以分析的速度快。
休斯顿莱斯大学的电气和计算机工程师理查德·巴拉尼克说:“我们拥有庞大的数据海洋,我们必须通过花园水管将其吸走。”
因此,33岁的计算机科学家Anshumali Shrivastava正在设计新一代的人工智能程序,以有效地处理洪水信息。
麻省理工学院的电气工程师和计算机科学家Piotr Indyk表示,“他非常有创造力”的策略可以解决笨重的数据集问题。“我说其中一些事情,’我希望我想出来。’它们清晰,美观,而且有效。“
Shrivastava进入了人工智能,因为解决现实世界问题的数字运算算法是“你看到数学在行动中的地方”,他说。但作为博士Shrivastava是康奈尔大学计算机科学专业的学生,他意识到人工神经网络是如此低效,如今的人工神经网络。
神经网络由称为人工神经元的代码片段组成。为了学习诸如图像识别之类的任务,AI网络可以研究标记图像,网络中的每个人工神经元都获得识别某些模式的专业知识。
但即使他们专注,所以典型网络中的所有神经元都会继续研究所有传入的信息。例如,当网络看到猫照片时,甚至负责注意卡车的神经元也会引起注意。Shrivastava说,这不必要地耗费时间和精力。
在研究生院,Shrivastava找到了一种识别和激活与每个输入最相关的神经元的方法。他使用散列函数,在数据库中组织记录的计算工具,就像Dewey Decimal System在图书馆中组织书籍一样。
有序存储
计算机可以通过将每个文档馈送到散列函数来组织数据库中的记录,散列函数为记录分配散列码。类似的文档被分配了类似的哈希码并存储在哈希表中的相同“桶”中 – 类似于同一主题的书籍在库中被搁置在一起的方式。
T. TIBBITTS
Shrivastava根据它们与给定输入的相关性,设计了一组哈希函数来组织和快速定位网络中的虚拟神经元- 因此您可以找到所有猫神经元并忽略卡车神经元。
“我在考虑这个问题超过两年,”他说。“你把所有的难题都放在脑后。”当他有一段时间并且通常无处可去时,他会回到这个问题。但是回到他身边的那一天,他在几个小时内解决了这个问题。他回忆起坐在他的卧室里,阅读并重新阅读他的解决方案,以说服自己它实际上会起作用。
他提出的系统可能被认为是“当年机器学习的最佳研究工作,”赖斯的计算机科学家Moshe Vardi说。它在2014年神经信息处理系统会议上获得了杰出论文奖。
从那以后,Shrivastava建立了一个图像分类神经网络,其工作方式与标准网络一样,但计算量减少了95%。这样的效率可以释放人工智能程序处理其他信息的时间和精力,例如,用于语音识别的音频,为更多样化的人工智能铺平道路。
自从2015年加入莱斯大学以来,他还开发了其他简化计算的方法。他“非常聪明,速度极快”,瓦尔迪说。“我们有时不得不追随他,因为他的思想正在向前发展。”
Rice和杜克大学的Shrivastava及其同事最近对叙利亚内战受害者数据库进行了散列处理。为叙利亚冲突获得准确的死亡罪数,以帮助起诉犯有危害人类罪的者已证明是困难的。家庭成员,媒体和其他来源报告的受害者数据库包含重复记录;计算机需要花费一周多的时间才能将所有354,000条记录相互比较才能找到重复记录。
一旦Shrivastava的计算机程序为四个受害者数据库中的每个记录分配了哈希码,它就会在几分钟内使用这些代码来识别可能的重复记录。该计划于6月份在“应用统计年鉴”中报告,然后仅检查了这些记录的匹配情况。
更接近家庭,Shrivastava及其同事创建了一个智能手机应用程序,用于根据人的周围环境照片导航购物中心或其他大型建筑物。该应用程序将用户拍摄的照片反映为哈希码,以与参考照片代码进行比较,在两秒钟内精确定位位置。
随着大数据的泛滥,Shrivastava很容易被淹没和沮丧。幸运的是,“他体内没有闷闷不乐的骨头,”巴拉尼克说。
Shrivastava可能会在特定问题上停顿数月或数年,然后才能获得导致他基于哈希的尤里卡时刻的大脑爆炸。但他表示,当他能够将缓慢移动的计算机系统推向高速档时,“这是值得的。”