|
我要发布文章 | 收藏 | 推荐 | 打印 |
旧金山的大雾或纽约的交通是很容易预测的。但其它的东西,如股市对大额交易的反应或HIV患者病情的发展状况,是非常复杂的。这就是新创公司Kaggle打算做的事情。该公司组织了一场竞赛,参与者通过分析大量数据来尝试做出似乎不可能的预测。
Kaggle聚集了许多有数据科学背景的人,包括博士、研究生、教授和在IBM、谷歌等公司工作的人,为它们提供机会来竞争解决大数据难题,并赢得奖金。竞赛主办方提供数据给用户,用户用定制的算法来发现模型并进行最精确的预测。你可以把竞赛想象成一场预测建模的生死决斗。
Kaggle公司由澳大利亚经济学家安东尼金·高德布鲁(Anthony Goldbloom)所创办,他们从网飞公司Netflix于2006年至2009年举办的比赛中得到灵感。在那次比赛中,对于可以提高其电影推荐软件10%精确度的团队,该公司提供了100万美元的奖金。
Netflix比赛非常受欢迎,这让高德布鲁知道,很多人都对企业中与数据相关的难题感兴趣。2008年在经济学家杂志(The Economist)的实习经历告诉他,许多企业的数据都能够挖掘出有价值的信息,但没有合适的人来研究。
他打赌说公司可以把两方面结合起来,并设想,采用竞赛的方式可能会有更好的结果。
于是他就开始了这项工作。自从2010年4月开始用1000美元来奖励能最精确预测出欧洲电视歌唱大赛(Eurovision Song Contest)参加人数的团队,Kaggle已经组织了30场不同的竞赛,其中5个仍在进行中。
已经发展至2万7000人的Kaggle社区,正在获得成果。在早期的挑战中,德雷赛尔大学(Drexel University)的一位学者提供了匿名的HIV记录,这里面包括他希望可用于预测病毒发展的基因标记数据。只用了一周半的时间,Kaggle的用户就预测到了病毒的发展,与已知数据比较后,发现精度为70%——这是在仅用四年的努力之后,学术研究达到的一个里程碑。三个月的竞赛最后,网站用户已经创建了一个模型,可以减少了之前三分之一的错误率,把预测精确度提高到了77%。
高德布鲁说,网站吸引参与者的是在排行榜排名上升的兴奋感。提交最好解决方案的人将升至排名榜的最高级,这是用户喜欢的。“大家都想不断上升排名,”高德布鲁说。
威尔·库克斯科(Will Cukierski)是罗格斯大学(Rutgers University)生物医学工程的博士生,他不仅喜欢提高排名,还把这种竞争看做是在就业市场上占据优势的方法。他参加了大约6个Kaggle竞赛,其中一个获得第一名,其它的也都名列前茅。“这件事情有点意思,还有点商业性质”,他说。
尽管大多数参与Kaggle竞赛的人都有数据挖掘背景,但胜利者却来自于不同的领域,这可能是因为他们能从全新的角度来分析问题,高德布鲁说。
芭芭拉·周(Barbara Chow)是威廉和弗洛拉·休利特基金会(William and Flora Hewlett Foundation)的教学总管,她希望这种创造性的方法能帮助其团队的难题,就是寻找自动给学生论文打分的好方法。这个提供6万美元大奖的竞赛将于4月30日结束,并与一个私人性质的比赛同时进行,该比赛包括已经致力于自动论文评分领域的大公司。
尽管她不确定Kaggle的社区是否得到最佳答案,但周说,因为网站“能找到合适的人选”,所以休利特基金会就决定试验其难题。
库克斯科是其中之一——他的团队认真的进行着比赛,尽最大努力实现自动提供并创建接近真人评分的方法。他们的进展如何呢?“初步结果显示,我们已经非常接近于真人评分了,”他说。(蕾切尔·梅茨)
(责任编辑:zxh007)
http://www.iot-online.comhttp://www.iot-online.com/BI/DataMining/2012/020916226.html
- 上一篇:云时代企业数据挖掘面临的挑战
- 下一篇:零售信息业的物联网班车 数据挖掘带来效益
- RFID技术在医药防伪行业的应用
- VICS的单品级RFID行动进入第二阶段
- 智能卡加密芯片的攻击手段及防护措施
- 基于数字信号处理芯片的射频IC卡智能电表的设计
- 选择门禁产品应首选联网型专业门禁系统
- 智能卡安全芯片行业进入爆发性增长期
- 地铁应用RFID技术 智慧无锡正在显现
- 用友软件涉足医疗信息化
- 未来五年成长最快的RFID应用将是供应链管理所需的单品追踪
- 蒙特雷国际机场采用TagMaster北美公司的系统管理出租车
- 世博:RFID技术展现巨大商业价值
- 吊牌设计的半无源 Gen 2 RFID 标签
- Vail Resorts公司将RFID技术与社交媒体相连提升滑雪
- 感应式电子巡更系统的组成、原理及应用
- 拉斯维加斯护理中心采用RFID技术护理记忆障碍的病人




