在 Swift 中获取字符串的长度很简单,只需要调用 count
1 | let string = "这是🐘,它的👃很长" |
这在日常的使用中是没有什么问题的,直到我在项目中遇到了一个评论 emoji 乱码的问题。
问题表现为,在评论的末尾如果是 emoji 的话, 则会变成无法显示的❓,如果 emoji 出现在其它地方,则很少出现这个显示不了的问题。
1 | func convertToAttributedString(with string: String) { |
问题就出现在注释1的地方,先来看看 Swift 的官方文档。
Extended grapheme clusters can be composed of multiple Unicode scalars. This means that different characters—and different representations of the same character—can require different amounts of memory to store. Because of this, characters in Swift don’t each take up the same amount of memory within a string’s representation. As a result, the number of characters in a string can’t be calculated without iterating through the string to determine its extended grapheme cluster boundaries. If you are working with particularly long string values, be aware that the count property must iterate over the Unicode scalars in the entire string in order to determine the characters for that string.
The count of the characters returned by the count property isn’t always the same as the length property of an NSString that contains the same characters. The length of an NSString is based on the number of 16-bit code units within the string’s UTF-16 representation and not the number of Unicode extended grapheme clusters within the string.
意思就是有个东西叫做 Extended Grapheme Clusters
, 而这个 Extended Grapheme Clusters
是可以由多个 Unicode 标量组成。因此不同的字符或者同一字符的不同表现形式可能需要不同数量的内存来存储。这样就造成了 String
的 count
属性无法准确表示实际所占用的内存大小,而只是我们肉眼所能看到的字符长度。而 NSString
使用的是 UTF-16 字符编码方式,length
与 NSString
的表现形式一样使用 UTF-16。
上面的例子中 string.count
的值为 8,而 attrString
在添加属性的时候,按照这个 range
,并不能完整地将 emoji 转为富文本,因此 emoji 才会无法显示。
那么如何修改呢,其实非常简单,只要在计算 range 的时候将 String 转为 NSString,或者使用 UTF-16 的数量。
1 | func convertToAttributedString(with string: String) { |
现在使用 range1
或者 range2
转换为富文本就不会再出现末尾 emoji 乱码的问题了。
相信在日常的工作中,我们都不免会遇到要限制输入字数的问题。通用的做法都是在 textField(_ textField: UITextField, shouldChangeCharactersIn range: NSRange, replacementString string: String) -> Bool
中计算 textField.text.count 和 string.count 之和,如果数字超过了限制的最大字数,则返回 false,不再允许用户输入。
- UTF-8:一个英文字符占用一个字节,一个中文占用三个字节。
- UTF-16:一个英文字母字符或一个汉字字符存储都需要 2 个字节(Unicode 扩展区的一些汉字存储需要4 个字节)
- UTF-32:使用 4 个字节表示一个字符。
- GBK:一个英文占用一个字节,一个中文占用两个字节。
- GB2312:一个英文占用一个字节,一个中文占用两个字节。
从上面可以看出,如果使用GBK 编码和 GB2312 编码,那么只需要计算出所占用的字节数, 就可以变相地达到限制中英文不同字数的需求。比如说,如果在 UITextField
的代理中限制字节数为 20,那么就只能输入 10 个中文文字或 20 个英文字母或者 5 个中文和 10 个英文字母。
1 | func getBytesCount(of string: String) -> Int { |