他还真不是吹牛。那台最重的存储伺服器,四个程式设计师抬都费劲,何雨柱一个人就扛起来了——虽然脸憋得通红,但愣是给扛到了机架上。
“柱子,你可以啊!”张江竖起大拇指。
何雨柱喘著粗气:“那是……我在轧钢厂扛了二十年钢锭,这算啥!”
从那以后,何雨柱每周都来帮忙,顺便带各种吃的。红烧肉、炸酱麵、饺子、包子……程式设计师们都说,何师傅的饭是他们坚持下去的最大动力。
一月初,分词算法遇到了瓶颈。
无论怎么优化,准確率始终卡在85%上不去。而王恪从系统得到的技术標准是:商用至少需要95%。
连续一周的攻关失败后,团队士气低迷。有个刚毕业的大学生甚至偷偷哭了——他负责的模块问题最多,压力最大。
王恪知道,该用“技术包”里的另一个法宝了。
他召集所有人开会:“我们换个思路。不要只依赖规则,要引入机器学习。”
“机器学习”张江皱眉,“这个概念我听过,但国內几乎没人做……”
“没人做,我们就做第一个。”王恪调出他“连夜”写的方案,“我们建立一个训练数据集:找一万篇各种类型的中文文章,人工標註好分词结果。然后用这些数据训练模型,让机器自己学习分词的规律。”
这个想法在2000年绝对是超前的。团队里大多数人连“机器学习”这个词都没听过。
王恪花了整整一天,给大家科普基础知识:什么是特徵提取,什么是损失函数,什么是梯度下降……
讲到最后,他自己都笑了:“说实话,这些概念我也是最近才想明白的。咱们这是摸著石头过河,但没关係,摸著摸著就过去了。”
训练数据的构建是个苦力活。团队三十七个人,加上王恪,每人领了三百篇文章,要逐字逐句標註。那几天,办公室里安静得可怕,只有敲键盘的声音——每个人都在和中文的复杂性搏斗。
何雨柱来送饭时,看到这一幕,小声问王恪:“王工,他们这是在……打字比赛”
王恪笑了:“比打字比赛难多了。柱子,你知道『一行白鷺上青天』该怎么分词吗”
“这还不简单一行/白鷺/上青天!”
“但如果是古文呢如果是『中国人民银行』呢是『中国/人民银行』,还是『中国人民银行』”
何雨柱挠挠头:“我的妈呀,这么复杂……怪不得你们掉头髮。”
一月底,训练数据准备好了。模型跑起来后,准確率果然开始提升:86%、88%、91%……
到二月十日,农历腊月十六,准確率终於突破95%。
当测试结果出来的那一刻,办公室里爆发出疯狂的欢呼。有人把键盘拋向空中,有人拥抱在一起,有人瘫在椅子上泪流满面。
王恪站在人群中央,眼眶也湿了。他知道,真正的难关还在后面,但至少,他们迈出了最关键的一步。
那天晚上,王恪请大家吃饭。在中关村最好的餐厅,摆了四桌。
何雨柱也来了,还带来了四合院的老街坊们。二大爷、三大爷、秦淮茹、阎解成、棒梗……小小的餐厅被挤得满满当当。
“各位,”王恪举起酒杯,“这三个月,辛苦大家了。特別是过年都不能回家……我敬大家一杯。”
他一饮而尽。
张江站起来:“王总,该我们敬您。没有您,我们可能一辈子都想不到这些技术方向。”
“对!敬王总!”
所有人举杯。
何雨柱凑到王恪耳边:“王工,您这些手下,都是好样的。我看得出来,他们是真跟您干,不是图钱。”
王恪点头:“我知道。”
酒过三巡,王恪宣布了一个消息:“搜索算法基本成型了。接下来,我们要做另一件事:网际网路gg精准投放系统。”
他解释道:“『九州在线』现在每天有几百万访问,但我们的收入主要靠gg。问题是,现在的gg都是隨机投放,用户看到不感兴趣的內容,gg商也浪费钱。”
“我们要做的,是根据用户的瀏览歷史、搜索记录、点击行为,建立用户画像。然后,把合適的gg,推给合適的人。”
这个想法再次震撼了所有人。在2000年,网际网路gg还处在“横幅gg”的原始阶段,精准投放简直是天方夜谭。
但王恪有系统给的技术包。他知道,这才是网际网路未来真正的商业模式。
“过完年,”王恪说,“我们就启动这个项目。张江,你继续负责搜索。李薇,你带一个新团队,专攻gg系统。”
“好!”李薇眼睛发亮——作为团队里少数的女性技术骨干,她早就想证明自己了。
那顿年夜饭吃到了深夜。送走所有人后,王恪一个人走在回住处的路上。
北京冬夜的街道很安静,积雪在脚下咯吱作响。
系统界面自动弹出:
【搜寻引擎核心技术突破】
【中文分词准確率:95.3%(达到2005年国际先进水平)】
【gg精准投放模型架构完成】
【情绪点恢復:+120万(来自团队成就感和用户期待)】
【特別提示:技术是武器,但如何使用武器,取决於持剑者的心】
王恪关掉界面,看著夜空中的星星。
他知道,自己手里现在握著一把锋利的剑。这把剑可以砍出一条路,也可以伤到无辜的人。
如何用好这把剑,是他的责任。
远处传来零星的鞭炮声。快过年了。
新的一年,新的时代,正在敲门。
而他,已经准备好了开门的人。
这就够了。