辋川集

木末芙蓉花,山中发红萼,涧户寂无人,纷纷开且落

By - 陳 思敬

Google reCAPTCHA

一直以来,古籍的数字化扫描的效率是很低的。如果再碰到质量差一点的印刷,简直惨不忍睹。机器是无可奈何了,只能靠人工来完成。而谷歌的这个reCAPTCHA验证码服务希望利用大众的力量解决这个耗时耗力的工程。
简单来说,就是先拍下那些无法被机器识别的文字,再进行适当的扭曲变形后就成了你看到的验证码。
有的人可能要问了,既然机器都看不明白那他怎么判断你输对了还是错了呢?我一开始也有这样的问题,Google是这样解释的:

两个验证码里面有一个是正确的,被人审核过的,而另一个是不正确的,机器读不出来的。当你把那个正确的输对以后我们就会默认另外一个也是对的,这样,你每输入一次验证码,就为人类的知识宝库里增加了一个单词。


这个项目上线的第一年,就有 4.4 亿个单词被辨认出来。除了做文字识别外,这套验证码系统现在还能够帮助 Google 街景识别门牌码、增强 Google 的识图能力。
背景:作为中国在商业模式和界面上最原创的网站/App之一,12306在验证码上的不走寻常路为自己赚足了眼球。
文/ZUO先生(简书作者)
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。


What is reCAPTCHA?
reCAPTCHA is a free service that protects your website from spam and abuse. reCAPTCHA uses an advanced risk analysis engine and adaptive CAPTCHAs to keep automated software from engaging in abusive activities on your site. It does this while letting your valid users pass through with ease.
reCAPTCHA offers more than just spam protection. Every time our CAPTCHAs are solved, that human effort helps digitize text, annotate images, and build machine learning datasets. This in turn helps preserve books, improve maps, and solve hard AI problems.

Leave a Reply

Your email address will not be published.
*
*