[請問] 有高效率將大量中文字串轉成HEX的軟

看板EZsoft作者shala (沙羅)時間5年前 (2019/01/16 14:42)推噓9(9推 0噓 33→)

留言42則, 7人參與討論串1/1

我有一些文字檔，裡面都是中文字每個檔案大約都有100萬行想要把內容全部轉成UNICODE的HEX 例如「中」變成「4E2D」這個轉換不困難，但行數高達100萬行左右是否有每個檔案能在10秒內完成轉換的高效率程式？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 173.213.89.40 ※ 文章網址: https://www.ptt.cc/bbs/EZsoft/M.1547620949.A.DC5.html

→

01/16 15:19, 5年前 , 1^F

01/16 15:19, 1^F

10s太難的話就改30s吧。希望能盡量快。

→

01/16 15:34, 5年前 , 2^F

01/16 15:34, 2^F

是要存在硬碟

→

01/16 15:45, 5年前 , 3^F

01/16 15:45, 3^F

原始編碼為UNICODE

推

01/16 15:56, 5年前 , 4^F

01/16 15:56, 4^F

試用後覺得不合用。減為20萬行還是花了以分鐘計算的時間 ※ 編輯: shala (173.213.89.40), 01/16/2019 16:58:52

→

01/16 17:09, 5年前 , 5^F

01/16 17:09, 5^F

→

01/16 17:10, 5年前 , 6^F

01/16 17:10, 6^F

→

01/16 17:11, 5年前 , 7^F

01/16 17:11, 7^F

→

01/16 17:12, 5年前 , 8^F

01/16 17:12, 8^F

謝謝，不過轉換的目的不是要看，而是要給其他程式使用 ※ 編輯: shala (173.213.89.40), 01/16/2019 17:18:47

→

01/16 17:28, 5年前 , 9^F

01/16 17:28, 9^F

→

01/16 17:29, 5年前 , 10^F

01/16 17:29, 10^F

說起來有點複雜，總之是需要轉換這一個步驟的。我也希望能省略這一步，但目前還解決不了QQ ※ 編輯: shala (173.213.89.40), 01/16/2019 18:46:56

推

01/16 19:12, 5年前 , 11^F

01/16 19:12, 11^F

→

01/16 19:13, 5年前 , 12^F

01/16 19:13, 12^F

我有列入未來計畫

→

01/16 19:40, 5年前 , 13^F

01/16 19:40, 13^F

→

01/16 19:41, 5年前 , 14^F

01/16 19:41, 14^F

→

01/16 19:42, 5年前 , 15^F

01/16 19:42, 15^F

→

01/16 19:42, 5年前 , 16^F

01/16 19:42, 16^F

→

01/16 19:45, 5年前 , 17^F

01/16 19:45, 17^F

簡單說就是轉換後的文字檔打開是顯示4E2D這個字串。我要把這個字串拿去餵其他程式 ※ 編輯: shala (173.213.89.40), 01/16/2019 20:15:42

→

01/16 20:14, 5年前 , 18^F

01/16 20:14, 18^F

謝謝參考數據，硬碟確實是一個關卡QQ ※ 編輯: shala (173.213.89.40), 01/16/2019 20:18:33

→

01/16 20:32, 5年前 , 19^F

01/16 20:32, 19^F

→

01/16 20:33, 5年前 , 20^F

01/16 20:33, 20^F

→

01/16 20:50, 5年前 , 21^F

01/16 20:50, 21^F

轉換後的檔案我還是用同一種編碼，檔案略大一點，但就圖個方便。範例檔...其實用字典生成就很類似了。我的檔案會有一些大五碼以外的中文字。

推

01/16 21:15, 5年前 , 22^F

01/16 21:15, 22^F

有

→

01/16 21:32, 5年前 , 23^F

01/16 21:32, 23^F

哈哈，我改用UTF-8試試看好了

→

01/16 23:28, 5年前 , 24^F

01/16 23:28, 24^F

其實不行，所以真的很想換掉那個程式QQ

→

01/16 23:28, 5年前 , 25^F

01/16 23:28, 25^F

→

01/16 23:30, 5年前 , 26^F

01/16 23:30, 26^F

→

01/17 10:41, 5年前 , 27^F

01/17 10:41, 27^F

→

01/17 10:46, 5年前 , 28^F

01/17 10:46, 28^F

我再找更好的硬體run看看

推

01/17 20:18, 5年前 , 29^F

01/17 20:18, 29^F

→

01/17 20:19, 5年前 , 30^F

01/17 20:19, 30^F

→

01/17 20:20, 5年前 , 31^F

01/17 20:20, 31^F

感謝，效率提升很有感！是否因為演算法有所改良？若「不轉換」斷行符號會影響效率嗎？因為轉換後的檔案仍需保持行數不變。

→

01/18 09:07, 5年前 , 32^F

01/18 09:07, 32^F

推

01/18 11:55, 5年前 , 33^F

01/18 11:55, 33^F

→

01/18 11:55, 5年前 , 34^F

01/18 11:55, 34^F

→

01/18 11:57, 5年前 , 35^F

01/18 11:57, 35^F

感謝！斷行符號不太影響效率的話，可否開發一個保持斷行的版本？另外我發現您的程式會將字串兩兩對調，以UTF-8的「一二」為例，轉換前的HEX：E4 B8 80 E4 BA 8C 轉換後的字串：B8 E4 E4 80 8C BA 能改為以原順序輸出嗎？

→

01/18 12:52, 5年前 , 36^F

01/18 12:52, 36^F

→

01/18 12:53, 5年前 , 37^F

01/18 12:53, 37^F

推

01/18 16:09, 5年前 , 38^F

01/18 16:09, 38^F

感謝！能否再增加不轉換斷行符號的選項？困難的話我自己再加工替換

推

01/18 16:24, 5年前 , 39^F

01/18 16:24, 39^F

→

01/18 17:05, 5年前 , 40^F

01/18 17:05, 40^F

推

01/18 17:42, 5年前 , 41^F

01/18 17:42, 41^F

原來如此，我以為也支援UTF8。那沒問題了，非常感謝！ ※ 編輯: shala (45.56.160.202), 01/18/2019 19:55:44

推

01/20 23:39, 5年前 , 42^F

01/20 23:39, 42^F

‣ 返回看板[ EZsoft ] 軟體

‣ 更多 shala 的文章

文章代碼(AID): #1SFj9Lt5 (EZsoft)