多语言网站实现方案
1,静态:就是为每种语言分别准备一套页面文件,要么通过文件后缀名来区分不同语言,要么通过子目录来区分不同语言。
例如对于首页文件index_en.htm提供英语界面,index_gb.htm提供简体中文界面,index_big.htm提供繁体中文界面,或者是en/index.htm提供英语界面,gb/index.htm提供简体中文界面,big/index.htm提供繁体中文界面,一旦用户选择了需要的语言后,自动跳转到相应的页面,首页以下其他链接也是按照同样方式处理。从维护的角度来看,通过子目录比通过文件后缀名来区分不同语言版本显得要简单明了。
2,动态:站点内所有页面文件都是动态页面文件(PHP,ASP等)而不是静态页面文件,在需要输出语言文字的地方统一采用语言变量来表示,这些语言变量可以根据用户选择不同的语言赋予不同的值,从而能够实现在不同的语言环境下输出不同的文字。
例如:语言变量ln_name,当用户选择的语言是英语时赋值为“Name”,当用户选择的语言是简体中文时赋值为“姓名”,这样就可以适应不同语言时的输出。
采用静态方式的优点是页面直接输出到客户端,不需要在服务器上运行,占用服务器的资源比较少,系统能够支持的并发连接数较多,缺点是要为每种语言制作一套页面文件,很多内容即使是和语言无关的也要分不同语言来存储,因此占用的存储空间较多。
采用动态方式和静态方式的优缺点正好相反,它的优点是动态页面文件只有一套,不同语言的文字使用语言变量来存储,和语言无关的内容只存储一份,占用的存储空间较少,并且扩展新语言比较容易,缺点需要在服务器上运行,然后把结果输入到客户端,占用服务器的资源比较多,系统能够支持的并发连接数较少。
动态数据存贮涉及的一些技术问题
由于现在网站上动态应用日益增多,相当多的网站还会使用文件或者数据库来存储应用信息,因此如果文件或者数据库中存储的内容与语言相关时,还需要特别注意。对于存储在数据库中信息,可以采取以下几种方式支持多语言:
1,在数据库级别支持多语言:为每种语言建立独立的数据库,不同语言的用户操作不同的数据库。
2,在表级别支持多语言:为每种语言建立独立的表,不同语言的用户操作不同的表,但是它们在同一个数据库中。
3,在字段级别支持多语言:在同一个表中为每种语言建立独立的字段,不同语言的用户操作不同的字段,它们在同一个表中。
由于数据库中有大量的信息(如标志,编码,数字等)是用于内部处理使用的,与语言无关的,因此在数据库级别支持多语言会导致空间的极大浪费,在字段级别支持多语言最大的问题是一旦需要支持新的语言,由于需要修改表结构,维护起来非常麻烦,可扩展性不好。
相比之下,在表级别支持多语言比较好,因为并不是所有的表都需要支持多语言,对于与语言无关的表,不同语言的用户共用一套,那些和语言相关的表根据支持语言的种类来建立,不同语言的用户存取访问不同的表格。这样使得维护简单,节省了存储空间,即使是扩展起来也比较方便,只要把需要支持多语言的表,多建立一套即可。
还需要注意的问题是:有些表中某些字段是不同语言版本的表共享的(例如库存量),由于各种语言的表之间的相对独立性,使得数据共享有些困难。解决的方法有两个:
1,不同语言的表的共享字段同步:也就是说,只要修改了其中一个表的共享字段,其他语言表中该字段也作相应改变,实际上当不同语言的用户同时访问时处理还是比较麻烦的,并且扩充新语言时修改工作比较大。
2,增加一个新的表:把所有语言共享的字段(例如货物编号,产地编码等)全部放在这个表,支持多语言的表只存放与各种语言相关的字段。不同语言的用户在使用数据库时,需要操作两个数据表。
比较而言,第二种方法比较简单,并且效率比较高,维护也比较方便。
应用字符集的选择
一个定位于不同语言国家的企业网站势必需要提供多种语言版本的产品和销售信息来满足其世界各地使用不同语言的客户和合作伙伴,其中包括法语、德语、意大利语、葡萄牙语、西班牙语、阿拉伯语等等。但有一个问题却极易被网站设计者们所忽略。这就是网站的字符集设置问题。
一般我们使用的是简体中文(GB2312)字符集,而对多语言网站来说,中文字符集却可能会使你辛辛苦苦的努力功亏一篑。原因很简单:就是这个毫不起眼的小小字符集在作怪。
计算机应用领域中存在着几十种互不相同的字符集,而不同语言客户在浏览不同语言网页时,往往会因为相互间所使用字符集无法兼容而出现乱码情况。我们在浏览国外一些网站时,往往也会出现为了能正常地看到网站上的信息而不得不在各种字符集之间来回切换的情况。
试想一下:如果一个网站提供了中,英,法,德等多种语言版本的内容,内容全之又全,设计美仑美奂。我们在中文编码环境下浏览这些非中文版本的页面觉得非常完美,现在一个法国客户对你的产品发生了兴趣,当他进到法语版面一看—乱码多多,甚至可能整个版面都一塌里糊涂。你的网站再下大工夫又有什么意义呢?
所以对提供了多语言版本的网站来说,Unicode字符集应该是最理想的选择。它是一种双字节编码机制的字符集,不管是东方文字还是西方文字,在Unicode中一律用两个字节来表示,因而至少可以定义65536个不同的字符,几乎可以涵盖世界上目前所有通用的语言的每一种字符。 所以在设计和开发多语言网站时,一定要注意先把非中文页面的字符集定义为“utf-8”格式。
这一步非常重要,原因在于若等页面做好之后再更改字符集设置,可说是一件非常非常吃力不讨好的工作,有时候甚至可能需要从头再来,重新输入网站的文字内容。
HTML中的META标签:
<META HTTP-EQUIV=“Content-Type” CONTENT=“text/htmlCHARSET=字符集">
不写,根据浏览器默认字符集显示
charset=gb2312 简体中文
charset=big5 繁体中文
charset=EUC_KR 韩语
charset=Shift_JIS 或 EUC_JP 日语
charset= KOI8-R / Windows-1251 俄语
charset=iso-8859-1 西欧语系(荷兰语,英语,法语,德语,意大利语,挪威语,葡萄牙语,瑞士语.等十八种语言) http://www.microsoft.com/
charset=iso-8859-2 中欧语系
charset=iso-8859-5 斯拉夫语系(保加利亚语,Byelorussian语,马其顿语,俄语,塞尔维亚语,乌克兰语等)
charset=uft-8 unicode多语言
ASP与脚本引擎页码的概念
由于我们传统使用的内码像Big5,GB2312与unicode并不是一一对应,故两者之间的转换要靠codepage(页码)来实现
<%@ Language=VBScript CodePage=xxx%>
不写,根据服务器端解析引擎默认代码页自动解析并返回浏览器。
如果制作的网页脚本与WEB服务端的默认代码页不同,则必须指明代码页:
codepage=936 简体中文GBK
codepage=950 繁体中文BIG5
codepage=437 美国/加拿大英语
codepage=932 日文
codepage=949 韩文
codepage=866 俄文
codepage=65001 unicode UFT-8
建议采用utf8的静态和动态文档。即:
<%@LANGUAGE="VBSCRIPT" CODEPAGE="65001"%>
<meta http-equiv="Content-Type" content="text/htmlcharset=utf-8" />
搜索引擎优化(SEO)不是突然出现的一个技术,而是和搜索引擎同步发展起来的,两者的关系虽然不能说是“矛和盾”的关系,但是可以肯定的是,因为有SEO才使得搜索引擎技术能够变得更完善。
一、1994-1997年:雅虎诞生与SEO诞生
1993年8月,Lycos推出了基于搜索机器人的数据发现技术,并支持搜索结果相关性排序额,它还第一次让搜索引擎能够使用网页自动摘要。
1995年底,Alta Vista推出,由于它具备大量的新的搜索功能,深受大众好评,Alta Vista是第一个支持自然语言搜索,具备了基于网页内容分析、智能处理的能力,第一个实现高级搜索语法的搜索引擎(如AND,OR,NOR等),同时还能搜索新闻群组中的内容,还能搜索图片。
这一阶段也是yahoo发展的初期阶段,大多数人在这个时候对搜索并不熟悉,也不太知道有搜索引擎这回事,但是对于yahoo,大多数人则有所了解,寻找网站就上Yahoo。所以,将你的网站送到Yahoo是很必要的,在此阶段,只要你的网站基本有个模样,有一定的可看性,一般只要向Yahoo提交地址,72小时内就能出现在Yahoo目录上。Yahoo对所有的网站进行人工归类,一般是按照字母顺序排列网站,自然开头为“A”的网站排到开头为“B”的前面,而有两个A的网站,排在有A和B的网站前面,比如,American Airlines的网站不仅排在Bank of America的前面,而且也排在American Basketball Association前面。所以,大批网站就以追求A字来命名。这是搜索引擎优化的雏形。这个逻辑和黄页电话号码的排名逻辑一样。
在这一阶段,Yahoo的栏目编辑们也在网上积极搜索新的网站,丰富他们的数据库,而他们的搜索都是人工的,最典型的方法就是从一个网站的链接去访问另外一个网站。遇到一个好的网站,他们就给站主发电子邮件,欢迎站主登录,而且都是免费的。
这些Yahoo编辑访问网站的行为和我们今天看到的搜索引擎蜘蛛和机器人的形式是一样的孜孜不倦。有个Yahoo编辑这么关心你的网站,比你还着急登录你的网站,而且一文不收,这个在今天是无法想象的。你的网站登录后,你还可以随时更改登录的信息,一般72小时就得到了更新。
值得一提的是,虽然在这个时期中文网站很少,而且大多数是美国的中文网和在台湾的网站,但是Yahoo显然注意到中文网站的未来,而且迅速有个中文译名“雅虎”,而这个不仅仅是因为它的创始人是杨致远。
这一阶段也是SEO的雏形时期。网上网下出现了一些论文,讨论文字对应、数据挖掘和对搜索引擎程序员的访谈。人们初步有了让网页内容符合搜索引擎数据库原理的模糊意识。同样,将网站收录到搜索引擎也是很容易的,你的网页只要关键词的使用达到一定密度就轻而易举地排列在搜索引擎上了。
值得一提的是,搜索引擎InfoSeek首次做到每日更新。早晨八点你提交网站,下午就被收录,第二天就能出现在搜索之中。正是因为这么快的更新和这么容易的提交收录,大量的站主开始变着法子频繁登录不同的网址,英文出现Spam这个词来形容站主不负责地制造泛滥的垃圾,很快使这些搜索引擎吃不消。
所以,SEO从一开始就是黑白两道开始的。白的,英文里是white-hat,就是按照能够悟出的搜索引擎原理来合理地调整自己的网站,使搜索引擎能收录并得到好的曝光。黑道,英文叫black-hat,这类优化者仿佛是黑客,寻找搜索引擎的弱点,力图将混淆的信息强塞给搜索引擎,从而为真实的网站提高曝光机会。
这个时期,因为强大的利润诱惑,成人网站可以说是带头去“黑”搜索引擎。所以SEO和搜索引擎从一开始就是爱和恨的关系,这个时期,收费的网站优化服务也开始在美国出现。
在中文搜索引擎领域,中国的起步其实并不晚。1996年8月成立的搜狐公司是最早参与做类似Yahoo的管理信息分类导航的网站,曾一度有“出门找地图,上网找搜狐”的美誉。
这个时候,没有人注意在斯坦福大学的一个宿舍里,两个聪明的学生正在慢慢孕育一个令世界瞩目的新型搜索引擎。他们发明了一个新的叫PageRank的理论,来重新塑造搜索引擎。这个新型搜索引擎就是现在的Google。
二、1998-1999年:Google和SEO理论浮现
这一阶段,美国的互联网大会开始有一些关于网站优化的文章发表。这些文章开始关注到链接流行度(Link Popularity)、名录网站链接(Directory Listing)的意义。这段时间,搜索引擎也知道了需要限制人们的网站提交来防止垃圾网站的泛滥,于是开始组织反击。
Alta Vista开始大规模剔除含有“我们来优化”或者“我们来推广”这类文字的网页。SEO的实践者开始意识到,要破解搜索引擎的原理越来越难。在1999年将一个网站提升到前十名要比在1998年难上十倍。搜索引擎开始更多关注链接流行度的意义。
Google也在1998年收到了第一张十万美元的风险投资,搬出了斯坦福校园,正式命名为Google公司,域名也从google.stanford. edu变成google. com。这个新的搜索引擎衡量网站的重要性首次将链接流行度作为排名的标准之一。
1999年5月,英国的FAST公司推出ALLTheWeb搜索引擎。它的网页搜索可利用ODP自动分类,支持Flash和PDF文件搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3和FTP搜索,拥有极其强大的高级搜索功能。这么强大的功能使它成为最流行的搜索引擎之一。
这一阶段的初期,搜索引擎也开始了多元化的进程,开始设立多语种的网站,比如AltaVista就率先开始了拉丁语的版本。台湾中正大学吴升教授所领导的GAIS实验室于1998年1月创立了OpenFind中文搜索引擎。它是最早开发的中文智能搜索引擎,号称能抓取全球最多的网页并开始进入英文搜索引擎。
1999年Google获得了两千五百万的资金,开始全力发展,并且已经在每天处理50万次搜索,这个投资也使Google再次搬家到旧金山——硅谷地区叫Palo Alto的城市。Google也开始结识合作伙伴,从AOL到Netscape不久,Google再次搬家到的全球总部依然是旧金山——硅谷叫Mountain View的城市。这时候的搜索引擎开始设法控制市场,广告广泛地出现在搜索引擎上。这引起了许多搜索者的反感,因为大家还是在用56KB modem上网,大量的广告使网站页面出现的太慢。
Google发现了这个影响搜索步伐的致命的问题。简洁的网页设计使众人耳目一新,飞快地搜索速度更使得各个站主奔走相告,每个站主论坛都充满了对Google的极好评价,杂志的采访也是接连不断地对Google进行推荐,Google的全面演出就正式登台了。
三、百度和搜索引擎的革新
从2000年开始,登录一个网站到搜索引擎花的时间是越来越长。搜索引擎热衷于收费服务,从一个新的搜索引擎Inktomi到Alta Vista都染上了金钱。与此同时,搜索者希望有一个搜索引擎能真正地给他们带来有用的信息。Google没有辜负人民的期望,它的精确搜索开始巩固它在搜索引擎中的地位。
首先出局的是InfoSeek,这个InfoSeek在1998被迪士尼公司买下,变成Go. com。从那以后,InfoSeek被抛弃,而Go. com也使用Yahoo搜索来代替。在1999年,InfoSeek的一位华人工程师离开了这个搜索引擎而驶向北京,他力图要创立一个“中国人自己”的搜索引擎,并且受一句中国古词“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”的启发,将中国人的搜索引擎起名叫“百度”。这个工程师就是百度的创始人之一—李彦宏。
李彦宏自己就是新一代的搜索技术专家,他早在1996年就解决了如何将基于网页质量的排序与基于相关性排序完美结合的问题,并获得美国专利。百度公司结合硅谷搜索引擎人才精英,依托北京最优秀的软件人才,开发了大型商业化的中文搜索引擎,中文搜索从此与英文搜索站在了同一起跑线上,同时,百度搜索巧妙地解决了数据更新的瓶颈,整个中文网页的数据库可以最快每天更新一次。
2000年也是Flash动画、JavaScript特技Rollover和动态图片的流行之年。这些动态的形式让人喜爱,但是很少有人知道,搜索引擎不能认识这些,搜索引擎只能阅读文字,而非这些感官的创意,因为它们一直是在模拟人的阅读方式,但是却无法模拟人的感知,直到今天,搜索引擎也没有解决这个问题。
从这一年开始,实际上,向搜索引擎呈交新的网站不需要按照以前那样在搜索引擎的页面上填写“ADD URL”,搜索引擎已经能从一个存在的网站上发现新网站的链接来访问并收录。在这个时候,SEO实践者也开始知道,如果网站能被目录导航站(Directory),特别是开放目录ODP(Open Directory Project)收录,将非常有助于搜索排名的提升。最知名的ODP是DMOZ(www. dmoz. org),由尼克·斯冠塔河鲍勃·图尔两位Sun公司的工程师在1998年创办,它是一个人工来收录网站进行分类的目录网站。在这点上,它的组成和Yahoo是一样的。
不同的是,它是由全球的站主自己做编辑来维护的,而Yahoo是由专业编辑来维护的。关于DMOZ,搜索引擎青睐DMOZ,是因为经过人工分析的网站的可信度自然要高于搜索引擎蜘蛛和机器人来获取的网站信息可靠。
2001年的收费登录大为红火。搜索引擎市场经历大清洗,人们开始抛弃搜索引擎Hotbot,Alta Vista和Excite。Alta Vista试图仿效Google方式来重新回到缩小版的搜索引擎,但是这个垂死挣扎非常痛苦地失败了,并在2003年被Yahoo收购。Inktomi也失去了好几个应用伙伴,急剧走下坡路,2004年同样被Yahoo收购,而且成为了今天Yahoo搜索的主要核心技术。
四、2002-2007年:Google Dance和SEO的不眠之夜
其实在2001年,敏感的站主和SEO实践者感觉到了一个从未有过的现象。有些人对网站在Google上的排名一夜之间消失,而有的网站则名列首位。这个现象几乎是每月一次。后来,人们知道,这就是Google定期地更新它的索引(Index)的距离活动,给人的感觉就像跳舞一样,因此被SEO实践者称为Google Dance。
正是因为有Google Dance,每个SEO实践者都在Google更新的那个晚上熬夜地看自己的SEO成果能否在Google上实现。每次更新有赢家和输家,网上SEO论坛总有成千上万的讨论,期望知道下次更新能有什么可以预料的,或者猜测更新的具体日期。
搜索引擎在这个阶段中遇到更严重的泛滥问题。SEO实践者大量采用门户网页(Doorway Page)、重复网站(Duplicate Website)、伪装网页(Cloaked Page)、隐藏链接(Hidden Links)等来试图欺骗Google。另外,DMOZ被Google作为一个重要的收录新网站的渠道,DMOZ也被注入许多垃圾网站。
2002年是大量SEO被滥用的一年。但是,搜索引擎从这些与SEO非法实践的斗争中不断丰富自己的辨别技术,对抓住的网站拒绝收录,已经收录的则给予剔除。但是这个封锁也冤枉了不少诚实的SEO网站。
在中国,百度于2001年9月开始提供公共搜索服务,并成功地使搜狐和新浪开始使用它的搜索技术。同时,它还提供新闻搜索服务,迅速扩大用户群。
2003年,越来越多的网站设计对Flash的应用有了谨慎的态度。这一年也是搜索引擎继续反击垃圾泛滥的一年。许多SEO实践者明白黑帽技术(black-hat)已经行不通,而是要扎扎实实地真正提高网站的素质。
Google在2003年更是挤掉了AltaVista和Inktomi,成为独大。Google诞生于一个搜索引擎纷杂的时代,在那个时代,像Alta Vista等搜索引擎对自己的市场份额太具信心而懒得变化。Google由各个站主和SEO实践者宣扬,从而一举后来居上。Google开始反击垃圾泛滥,矛头直接对向曾经支持它的这些站主和SEO实践者。这些人成了Google成功的牺牲品。
2003年的Google的“佛罗里达更新”(Florida Update)真是让全世界的站主领教了Google的厉害。倘若强烈飓风一般,Florida Update一夜之间让千万个网站从搜索中消失或者从前十名刮到100页以后。这个发生在11月16日的更新,尤其对寄希望在即将来临的圣诞节狠赚一笔的电子商务网站损失惨重。Google的这个更新是反击垃圾网站和不法SEO行为的一次重要战役。
然而,由于使用的过滤器(filter)不完美,冲击了很多无辜网站。之所以叫“佛罗里达更新”,是因为这个更新由Google在佛罗里达的数据中心开始的。
之后,2004年1月叫做“Austin Update”的余波同样也对相当多的网站造成冲击。霎时间,所以SEO实践者都突然摇身变成了Google Adwords的专家,大家不能不依靠Google广告来维持这段节日期间的销售。
关于这两个历史性的Google更新,给了许多SEO实践者相当大的教训。规规矩矩地从改善网站本身的素质而不是投机取巧,成为了SEO唯一可行的方法。PPC也稳定的成为营销策略中的重要手段,而SEO也成为搜索引擎营销(SEM)的一部分。
Yahoo在这个时候决定与Google正式分道扬镳。长久以来,为了弥补自己靠人工收录网站的不足,Yahoo一直采用Google的技术来提供网络搜索。Yahoo显示陆续购入Alta Vista,AllTheWeb和Inktomi公司,让人觉察到Yahoo的心情——它是否间接养大了Google?它的手上还有20%Google的股份!终于,在2004年2月16日,Yahoo出售了Google股份,正式告别Google,走上自己开发搜索引擎的道路。
同年,2004年9月12日,Google推出简体及繁体两种中文版本的搜索引擎。
进入2005年,最大的变化是Google Update不再是定期的活动,而是逐渐地成为每天的递进更新。剧烈的变化不再看见。SEO实践者能够很快看到自己的努力是否出现了效果。遵循搜索引擎的纪律,以合理的方法来调整、提高网站的结构和内容,成为唯一能够保证网站稳定的方法。更重要的是,遵循这些规范操作而优化的网站,不仅在Google上排名良好,还会在Yahoo和MSN上也具有不错的结果。中文网站,如果扎实地做好网站的素质,也会在百度的排名上获益。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)