bookmark_border文字編碼雜談 (5)

又有一件「新聞」可以來順道談一些文字編碼的東西了。

這次的事件是這個:2021/9/22 數位五倍券開放登記當天,由於剛開啟時是人最多的時候,有不少人看到這樣的錯誤訊息:

甇斗�滚�嗵�⊥�蓥蝙�鍂��

這是個很標準的編碼錯誤,而由大約一半的字是�來看,這有可能是 UTF-8 被當成 DBCS 編碼造成的。查了一下編碼表,容易發現前兩個字可以湊出東西來:

Continue reading “文字編碼雜談 (5)”

bookmark_border文字編碼雜談 (4)

這個第四篇原本要寫的是另一個主題,不過由於最近有一件應該和編碼稍微有關的事上了新聞,所以就從那個新聞開始來談一個 Unicode 的一個不少人還是會忽略的部份。

「開元路𩵚魠魚羹」

大約在這篇文章發表的半個月前,特斯拉的導航功能出了一個只有台灣才會碰到的 bug:當要導航導向「開元路𩵚魠魚羹」的時候導航系統會當機。新聞方面各位搜尋一下這個名字就能找得到不少文章,但這個 bug 的成因由於特斯拉官方沒有正式發表,所以大家都只能猜:有猜測是這幾個字的發音會跟命令導航系統重開機的指令很接近,也有猜測是說這其實是因為導航系統無法正確處理「𩵚」這個字造成的。

我對電腦語音辨識不熟,所以不太能判斷這個「和重開機指令接近」是不是個可能原因,但後一個猜測「系統不能處理『𩵚』字」卻是在處理 Unicode 編碼時很有可能撞上的問題。

究意這是什麼樣的問題?

Continue reading “文字編碼雜談 (4)”

bookmark_border文字編碼雜談 (3)

第一篇裡我提到了一個問題叫衝碼問題,第二篇裡也帶到過這個問題會造成亂碼。狹義上來說這個問題專指被命名為「許功蓋問題」的大五碼衝碼問題,不過同樣概念的衝碼問題其實並不只有這一個,而它造成的問題當中亂碼還是比較小的一個。這篇文章就來詳細談談它吧。

「是否看過坊間常見的許茹芸淚海慶功宴吃蓋飯第四集」

跟我同年代用過大五碼的人多半看過這個小標題吧。這句話出自 pietty 的作者 piaip,他說「這個句子包括了大部份容易出問題的 Big5 字代表」,因此可以拿來測試軟體系統有沒有衝碼問題。

究竟這是個什麼樣的問題?

Continue reading “文字編碼雜談 (3)”

bookmark_border文字編碼雜談 (2)

系列文章的第二篇,就來簡單談談所謂的「亂碼」吧。

亂碼與他們的產地

這節的標題是一篇 Facebook 轉貼文的加註,最原始的出處則是一個中國人的推特。雖然那個表格是以 GBK 編碼為主,但除了怎麼解讀亂碼之外,其實還有一個很重要的訊息在裡面。

Continue reading “文字編碼雜談 (2)”

bookmark_border文字編碼雜談 (1)

有了地方應該要放一點東西,所以就來嘗試把一些很早之前就想寫想整理的東西來寫出來好了。打頭陣的這個文字編碼的題材是很久以前就已經開始寫的 (有紀錄的草稿是七年前開始的),雖然還不確定要怎麼分篇但就慢慢整理吧。

Continue reading “文字編碼雜談 (1)”