| 
 | adm | Find | login register | 
| eliu  joined: 2007-08-09 posted: 11512 promoted: 617 bookmarked: 187 新竹, 台灣 | 
 目前正體←→简體轉換是用 UTF-8←→Big5←→GB-2321←→UTF-8 問題就出在如果文章有 UTF-8 character 是 Big5 or GB-2321 無法表示的,那就會掉字。是有辦法避掉,可是有點麻煩。 最佳的解決還是 UTF-8正 <-> UTF-8简。看有沒有人去弄出 UTF-8 的對應 text file。 
 edited: 3
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 | |||||||||
| caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 | 
 | |||||||||
| eliu  joined: 2007-08-09 posted: 11512 promoted: 617 bookmarked: 187 新竹, 台灣 | 
 
 | |||||||||
| eliu  joined: 2007-08-09 posted: 11512 promoted: 617 bookmarked: 187 新竹, 台灣 | 
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 
 
我也忘了從哪裡來的,就躺在我的硬碟上。 我猜最終的原始出處是在 Unicode.org: http://unicode.org/reports/tr30/datafiles/SimplifiedHanFolding.txt 
然後再加加減減的。 
 | |||||||||
| eliu  joined: 2007-08-09 posted: 11512 promoted: 617 bookmarked: 187 新竹, 台灣 | 
 gcin 现在开始改用自己的简正转换,發現 data 有錯 開 开 麻煩再看一下還有沒有錯。 edited: 2
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 
source 在哪裡?(伸)。 
 | |||||||||
| eliu  joined: 2007-08-09 posted: 11512 promoted: 617 bookmarked: 187 新竹, 台灣 | 
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 那個是有人 po 到 cle trac 上去的,我下載後,忘了出處了。:p 
我把他和 Unicode 的來比較一下好了。 
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 以下這是兩個檔合併的(b5-gb2.txt.gz)。 b5-gb2.txt = Big5_to_GB2312.txt + SimplifiedHanFolding.txt。 
ps. 开的已更正。 
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 我發現一個問題,那就是不必只限定在 Big-5 範圍,例如: 
㠏㩜䊷䋙䋻䝼䯀䰾䱽䲁 這些都不在 Big-5/GB2312 的範圍,但有繁轉簡的問題。 
我試過了,這些加進去,轉換仍然正常,不會有什麼影響。eliu 弄了個新版本,大家來幫忙「抓漏」吧! http://www.csie.nctu.edu.tw/~cp76/gcin/download/gcin-1.3.9.pre1.tar.bz2 
等我校正好後再把 table po 過來。 
 edited: 1
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 
Done & Thanks. 我把檔名改成 t2s-file.table(如附件),以便和程式碼名配合,要使用這個檔 t2s-file.c 及同目錄的 Makefile 要改一下檔名。 
 edited: 1
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 這個目前算是初步定案,和「Wikipedia:Unihan繁简体对照表」比對的結果有四處不同,已經更正過來了: 
 --- t2s-file.table.orig    2008-01-28 18:11:38.000000000 +0800 
 
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 
呃,偷懶被發現了。 
晚上再來看看…… 
 | |||||||||
| 本人已不在此站活動  joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 | 
 OK,訂正了一下(有一些是正確的轉換,所以就維持原狀了)。見附檔 ts2-file.table.gz。 另外附上 cn2jp 的 big2gb.tbl 供大家參考,我已把他轉成 UTF-8,裡頭的 hex 是 Big-5 碼的。 目前一對多的只留一個,因為對目前的 gcin 而言,似沒有必要。新增的部份全數加入,Thanks. 日文漢字的部份我是覺得不動他比較好,因為他沒有繁簡之分,加進去轉的話,反而容易亂掉或被誤會?不知道大家覺得如何? 
ConvertZ BI_SimFix.dat 是 gb18030,支援這個編碼的編輯器就可以看了。不過,資料要詳加訂正一下才敢用。 
 | 
| 
 | adm | Find | login register |