生物谷博客正在载入数据,请稍等...

 
生物医药大词典编辑的过程及体会
[ 2008-3-31 11:40:00 | By: bioon ]
 

   花了一个月时间,更确切地说,这个idea应该从年前就想到了,过年期间,做了少量的收集和整理工作。到现在基本OK了,大家试试?

http://www.biodic.cn

先说一下过程,为什么要编辑这个词典呢?

其实我本人最不喜欢使用任何词典的!从工作以来,从未用过什么词典,只是偶然几个单词不认识,通过搜索也能搞定。

但是公司装电脑时,新人总是要说装上金山词霸,当时感觉很不好,为什么要用金山词霸呢?后来上网随便搜索了有关词典,包括网易的youdao,以及百度使用的译典通,实际并没有在意。直至后者上网看到一个生物学的词典,突然才感兴趣起来。记得是绍兴文理学院的一个老师编写的生物学词典,2000个专业词汇,解释还挺不错。这使我联想起,不少网友上网找名词解释。可惜这个词典词汇过少,只有2000。目前比较好用的全医药大词典,毕竟是收费的,要说破解版也可以下载到,但是破解不是永久之道!而且软件版的更新是个问题。

于是这些思路集中到一起,想做一个专业的词典,方便大家使用。第一步是规划程序的结构,公司同事小杨很快就做出第一个版本,仅用了一周时间,架构,测试均OK;期间也让小麦参与了部分引擎代码的书写.第二步是收集词汇,一开始仅仅收集专业词汇,加上一两万通用词汇,很快就超过10万词汇,于是开放了测试版。结果令人失望。

1 很多网友搜索的词汇都找不到

2 没有模糊搜索功能

于是进行了大量改进,大约在这个月15号前后,进行了引擎的全面升级,包括模糊搜索,搜索结果提醒,错误结果提醒等新的功能。

进一步监测了一周时间,发现,还是有很多网友搜索时,找不到搜索结果。而且大多是通用词汇。或缩略词搜索时,结果量过大,发现不了缩略词。

在25号左右再一次升级引擎,增加缩略词搜索。

29号全面升级词库,从30万,直接扩充超过100万!为了方便用户对常用词汇的读写,再将3万常用词汇配了国际音标。

但出现结果是速度过慢,由于词库快速增长,搜索的速度大大下降,于是进一步升级和优化了引擎,使得搜索较为快速。

至此,大词典基本成形。

2 这一个月的体会是什么呢?感触很多。

其一,如果当你决心做一件事情时,你必需全身心投入。而且一定要将它做好,在收集词汇的过程中,为了保证更全的词汇,每天夜里,早上,周末,几乎任何时间,只要有空,便在收集和整理词汇,几乎到疯狂的地步。因为收集词汇并不是件容易的事情,一部分来源于网上整理好的词汇,另外许多是根据自已过去写作,翻译的经验,寻找的词汇,还有一部分,需要采用软件进行词汇的筛选。有时为了得到词汇,需要从目前网上有的词汇中整理,记得上周,一个上午,copy了2000多个页面呢,中午连饭都忘记吃了。有一次是周末,整理词汇,一做就是一下午,准备回家时,脖子,腰突然感觉都麻木了,眼睛也花了。但是一点也不觉得疲劳,相反是兴奋,因为词典的完善,能为更多的用户带来方便,也许我多加一个词汇,就能减少一位用户的某个疑难!我的举手之劳,能为网友解决烦恼,难道不值得?同时,一百万词汇,看上去很庞大,当你做了,原来也并不是很难的一件事情。词典,在一年前对于我们来说,也许是个大工程,现在业余时是就搞定了,并不是很难。想到五六年前编写的生物医药输入法一样,工作量同样如此。庆幸的是,这么多年过去了,自己还能象以前那样投入地工作,投入地做自己感兴趣的事情,而且这些事情对外界来说,似乎是不可思议的一件事。

其二,一切以用户为中心。要说做词典,实际上不是最终的目的,我希望通过做词典,了解用户的体会。正如史玉柱一直打网游一样,你只有自己切身体会,才能明白其中的道理的。许多细节的功能,如提醒功能,在线编辑功能,模糊查找功能,缩略语功能,等等都是在编写过程,和自己录入词汇时,需要先查找一下是否有重复时,发现的问题,最终得以改进的。因为你不仅是个编写者,更是一位用户。要随时急用户之所急!记得有一次,我走在路上思考词汇中还要补充哪些词汇时,突然想到最近生物学中的一些热点领域,当时十分着急,心里想,如果现在用户正在查找这些新词汇,而词典中没有结果怎么办?于是便马不停蹄赶到办公室,第一件事是打开电脑,添加这类新词汇!一添,就是好几个小时!

其三,做这件事情前一定要喜欢上这件事。我很讨厌各类词典的,按常理的话,我不会做它的。但是因为我感觉到有太多的用户需要它们。因此,也不知道是责任感还是出自什么原因,很喜欢做它,而且做它时,没有任何劳累的感觉!我想做其它任何事情都是一样的,做它,先喜欢上它!

其四,天下无难事!编写词典确实是一个较为庞大的工程,毕竟几十万词汇,很多词汇都要自己过一遍。如果让你一个人来承担这个工程,我想90%的人都会退缩的。一则这种事情公司中没有人做过,二是工程庞大。尤其一开始,如何寻找这些词汇都不知道,更何况做词典了!但是强烈的信念驱使着前行。如词汇一开始多是手工收集,或copy一些网页,很辛苦,有时一次性要copy好几千个页面呢。进一步,通过搜索引擎寻找各种词库,进页发现不少翻译论坛中有网友整理好的词库,再进一步根据词库的特点,追踪更多的词库。然后在搜索时,发现其他朋友介绍的一些好的词典,进行研究,收录一些优秀的词汇,再进一步比较各个词典,同时将词典做出独一无二的东西,即与任何词典都不要雷同,要收集用户常用,但其它词典中几乎又不可能收集的词汇等等。边做,边思考,边学习,自然很快就OK了。很多时候,我们做事情之前,总认为,我不会做,我没有做过,我不懂。其实对于我们来说,大多数事情都是新鲜事情,都是开创性的工作,要勇于承担,用自己的头脑去完成这份工作,那总是可以的。

其五,做一件事,你能学到很多知识。做词典,也许看上去很枯燥,尤其是一次性copy几千个页面时,都是极其简单而重复的工作。我爱人说,你为什么不交给公司同事做呢?我笑而不言。我知道,其一,这个产品是附属产品,不属于公司的计划范围内的;其二,这种事情超级枯燥无味,如果你是带着任务的心态做这件事情,是几乎不可能完成好的!而且不是一两个页面,是几千个。除非做这件事的人极其喜欢这个产品。其三,我感觉做这个产品,对自己提高很大,一方面了解如何做出一件好的产品,而不是做出一件产品,这很重要,二是学了许多新的知识点(为了添加新词,看了大量的资料和文献呢)。同时,我看到CNKI和万方数据库的转型(有一个词汇搜索功能),令我感觉,如何在产品上创新,是值得思考的一件事情。CNKI和万方,以前作为一个期刊数据库平台,如何为了更好适应用户的需求,做了大量创新,这些创新又是如何实现,同行其它的数据库又是如何创新的,为什么要做这些创新,等等,是值得思索的问题,以及我们如何对我们产品的创新呢?如果我不亲自做这个产品,我不会知道这几家公司如何实现这些创新的,这难道不是一种学习?任何一件事情,如果孤立地做或看一件事,确实很难,但是处处留心皆学问的路子做一件事,你不仅不会感觉累,而且感觉收益良多,感觉很好,很有成就感。象现在,我还会关注用户搜索哪些关键词,因为,越多的用户使用这款产品,感觉自然越好,因为自己的劳动成果确实做出了贡献!

其六,追求细节,追求完美。对于产品来说,我一直强调追求细节和完美,其实这句话,谁都会说,但是如何在产品中体现呢?其实也不难,从用户的角度去思考,这是第一点;第二点,只要对用户有利,可以做很大地改动!如为了加上音标,在数据库中导入了近20万的词汇,发现导入时采用的是ANSI格式,音标全部丢失了。而且返工的工作量是很庞大的,如何选择?我还是决定删除全部导入的词汇,改成unicode导入。结果音标进入了数据库,但前台显示不出来,因为页面是GB2312的。这也意味着将程序全部改成标准的utf-8才行,但是为了实现这个功能,将所有的页面都改成标准的Utf-8了。并且,帮助一些不懂的用户写了一个帮助文件,如何安装字体文件,并提供了字体下载等。看上去是细节的事情,但是你只有做到位了,才能真正帮助那些电脑水平不高的用户。虽然这个工作量比较大,但是方便了太多的用户,还是值得!这便是追求完美!还有一点,任何时候都要关注新词的出现,不放过任何一个要会增加哪怕一个新词!!这同样是追求极致和完美!如果我们工作中都有这个心态,大家说你的产品和劳动成果,别人不喜欢吗?

其七,有压力的工作是一件好事。其实编写这个词典的压力主要来自于自身,毕竟每天手头有大量的工作要做,不可能花很多心思在这一个产品上,还有更重要的工作等着我来完成呢。因此,我必需尽一切力量,最短时间将这个产品定型!这是一个巨大的压力,因此每天几乎有任何空隙,如中午,晚上,早晨(每天早上6:00多一点就起来做词典,一直做到8:00多上班)。算是非常高效地完成这份意外的工作吧。我不知道一个月内整理100多万词汇是快还是慢,我感觉至少是2-3个人全负荷工作的结果。这也使我想起当年学五笔时的情形,第一天接触电脑,连键盘都不会用的时候,老板让我为他打手写稿,几千个字,根本不可能完成的。于是找来同学帮忙,得到老板的极大表扬,说速度真快,于是又给我一份更多的手写搞。因为碍于面子,不可能再请人帮忙了,只好硬着头皮打字,记得当时是早上8点多,我一直打字打到第二天早上7点!一个白天加上通宵,才只打了大约5000个字。结果呢,只用了一天时间,便从电脑都不会用,字根不会背诵,就学会了用五笔打字,而且一分钟能打二三十个字。一周时间便能快速打字了。虽然至今仍然不知道字根的分布,但是打字的速度从来都很快。这完全得益于老板的压力。想起当时一些师姐,为了练五笔打字,很辛苦,又是背字根,又是找打字软件学习,学了几个月,终于会打了,隔了一段时间又全部忘记关了。原因很简单,没有压力。当然,有时候外界,包括我自己,在公司里,一般不愿意给太多的压力给大家,毕竟国家法律规定,一天只能工作8个小时,但是人与人之间的差别往往就在8个小时之外。以前看过一些世界管理大师的自传,如杰克维尔奇,60多岁的时候,每天工作都在10个小时以上,每周七在全负荷工作!这也许是他优秀的一个重要因素吧。

总之,收获很大!也与大家共勉!

 
 
Re:生物医药大词典编辑的过程及体会
[ 2008-4-27 19:24:00 | By: wuxuanalsk ]
 
wuxuanalsk生物医药大词典,原来是这样出来的啊o(∩_∩)o...
辛苦了,我现在也一直在用这个词典呢?
看专业文献用两个工具,金山词霸,一个是biodic(以前用的是郑州大学编的一个专业词典)
 
发表评论:
生物谷博客正在载入数据,请稍等...

生物谷博客正在载入数据,请稍等...
时 间 记 忆
<<  < 2008 - >  >>
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
最 新 评 论
生物谷博客正在载入数据,请稍等...

专 题 分 类
生物谷博客正在载入数据,请稍等...
最 新 日 志
生物谷博客正在载入数据,请稍等...
最 新 留 言
生物谷博客正在载入数据,请稍等...
搜 索
用 户 登 录
生物谷博客正在载入数据,请稍等...
友 情 连 接
博 客 信 息
生物谷博客正在载入数据,请稍等...


Powered by Oblog.