因为这两天在整理easymule的网站,需要把一些文字转换为繁体,却找不到好用的转换工具。
因为简繁转换特别麻烦,简体字和繁体字并不是一一对应的,往往一个简体字对应多个繁体字,例如“面”字,上面下面的时候,繁简是同一个字,而“面条”的“面”却是对应“麵”字。
第二个崩溃的问题是,自从繁简分家后,所有的新词语几乎都变成了两种完全不同的说法,例如:“軟體”、“下載檔”等等,需要有一个词汇表进行翻译。
目前网上流行的简繁转换程序,基本上都没有处理以上这2个问题,无法满足我的使用需求,于是只好自己来解决。 参考了一下维基百科中文版的处理方式和词汇表,自己写了个简单的转换程序:
http://www.easymule.com/misc/ChineseConverter.php
虽然还不能完美解决我所说的那两个问题(事实上两岸用语习惯上的差异,已经不肯能完全靠机器解决了) ,但至少能自己方便的修改转换表,通过增加转换表中的内容,来提高转换的准确性。
下面是程序的源代码,里面用到的”zhtable.php”,就是MediaWiki中的ZhConversion.php,自己作了些修改。
<?php
include_once( ‘zhtable.php’ );
$input = isset($_POST['input'])?$_POST['input']:”";
$new_needle = array_merge($zh2TW, $zh2Hant1, $zh2Hant2, $zh2Hant3);
$needle = array_keys($new_needle);
$output = str_replace($needle, $new_needle, $input);
?>
<!–#set var=title value=’简繁转换工具 – 电驴’ –>
<!–#include virtual=”../zh-cn/_includes/head.html” –>
<form name=”ChineseConverter” action=”ChineseConverter.php” method=”post”>
简体:<textarea name=”input” style=”width:500px;height:200px;”>
<?php print(htmlspecialchars($input));?>
</textarea>
<br/>
繁体:<textarea name=”output” style=”width:500px;height:200px;”>
<?php print(htmlspecialchars($output));?>
</textarea>
<br/>
<input type=”submit” value=”转换”/>
</form>
<!–#include virtual=”../zh-cn/_includes/foot.html” –>
我有用过Google翻译,挺方便: http://google.com/translate_t?langpair=zh-CN|zh-TW
Google这个缺少专业词汇的翻译
难得还能静下心来写代码啊,哈哈~
用.NET通过VSTO调用Word来进行此项操作,估计也是可行的。
关于两岸用于习惯的不同,我忽然想起一个对岸同胞的笑话:(好像是ptt上的)
老师从网上copy了一些古诗词印发给我们学习,
原文可能是简体的,经过了转换。
于是,我看到了一句既熟悉又陌生的诗句——
海记忆体知己,天涯若比邻。
=.=|||
Word有简繁互转的功能
我们的产品《简繁大师》是专业的简繁转换产品,有兴趣可以试试。很多本地化用户,从500强的大公司,到一个人的专业文档自由业者,都在使用我们的产品。
《简繁大师》(STGuru)具有行业领先的专业品质简繁体转换引擎,基于对中文用户简繁体转换各方各面需求的深入分析,它提供全方位专业品质繁简转换及简繁转换服务。
1. 基于智能型高精度简繁体转换引擎的全系列简繁体转换、繁简体转换服务 – 任何专业的网站、专业的软件开发商或经常需要与两岸同行沟通的专业人士,无不期望自己借助转码工具从简体转出的繁体是真正原汁原味的繁体,而不只是一堆简体风味的繁体码,也希望从繁体原始文本、文件转出的简体资料是真正亲切本色的简体资料。简繁大师提供行业领先的智能型高精度简繁体转换引擎,能帮助你不借助人工修补一次性实现完美品质简繁体转换。在此基础上,简繁大师提供全系列简繁体转码服务 – 编辑区转码、剪贴板转码、文件/网页/目录/网站转码和Word、Excel、PowerPoint、Access等特殊格式文档转码,均具备始终如一的商业品质。
2. 编辑区转码:本功能帮助您在编辑区内实现简体(GBK、UTF-8)和繁体(Big5、GBK、UTF-8)的任意组合之间的互转,共5*4=20种转换。
3. 剪贴板转码:本功能帮助您在剪贴板内实现简体(GBK、UTF-8、Unicode、Unicode BE)和繁体(Big5、GBK、UTF-8、Unicode、Unicode BE)的任意组合之间的互转,共9*8=72种转换。
4. 文件/网页/目录/网站转码:本功能帮助您在简体(GBK、UTF-8)和繁体(Big5、GBK、UTF-8)的任意组合(共5*4=20种)之间实现文件/网页转换和目录/网站整体转换。如某文件是带语言标记的网页文件,其语言标记也会自动正确转换。
5. 简繁大师为实现Word、Excel、PowerPoint、Access、Trados TM…等多种其它格式文件的专业品质整体简繁转换提供了方便、迅捷的转换流程及指导。
6. 简繁转换包管理功能:软件针对不同转换需求,提供基础(空白)、普通(默认)、科技、IT等多种标准专业转换包,方便您根据不同需要迅速选用,另外,专业人士可在此基础上针对自己的项目维护自定义库和自定义转换包。转换包可方便地剥离,便于维护、共享和保存。此机制为您实现完美品质转换提供了充分条件。
7. 全面支持高精度简繁体智能识别技术,使您在简繁体文件打开、批量转码时更智能、更流畅、更准确。
8. 双编辑区设计,具有各自完全独立的文件及编辑命令集的双编辑区设计,使对照编辑更方便。
9. 资源管理器右键集成 – 使您可以方便准确打开查阅资源管理器中的文本文件。
10. 强劲中文编辑处理功能 – 本软件也是一个功能强大的中文字、词、文件处理软件。除了一般字处理器具有的基本字处理功能外,它还提供专业级文本批量替换和行排序、冗余行管理、词汇合并、分割、交换等多种专业级词汇整理功能;而本软件的词汇修正系统本身就是一个一流的词汇管理系统。
11. 形态管理手段 – 使它的功能可以超越一个转码器。通过形态操作,你可以方便地将简繁大师定制成一个桌面即时贴、或文件校对器、或记事本、或简繁体转码器、或一个功能良好的文本编辑软件。
产品网站:
http://www.speedy7.com/cn/stguru
样图:
[img]http://www.speedy7.com/cn/stguru/help/gb2312/images/quality.jpg[/img]
dash难得还有这样的心情写繁简转换,=。=|||
能否放一份源代码给我呢?
博主怎一个强字了得!!
简繁转换很难的吧?
简繁还是比较麻烦的哦。
站长你好,我按照您说的方法和代码试了下,没有办法转换成功。还是简体字。能否将您的源代码发我一份我学习一下。谢谢。我的邮件地址:
yebaihe@gmail.com。请一定帮忙。