各种字符的 unicode 区间
各种字符的 unicode 区间
- 这个页面主要是为了方便大家写正则时,引用不同字符的范围
- 虽然题目是各种字符的 unicode 区间,实际上除了汉字只列举基本多文种平面内的字符(*^__\^*)
- 之所以这样是因为绝大部分浏览器和操作系统都只支持基本多文种平面内的部分字符。
- 基本多文种平面即:BMP(Basic Multilingual Plane),或称unicode第零平面(Plane 0)
- unicode目前有17个矩阵平面,每个平面65536个位置,共1114112个位置,
- CJK,意思是CJK 统一表意符号,包含中日韩三国文字及其注音符号,卦象,太玄经符号等等。
- 表格基于unicode 5.0
汉字
汉字 | 范围 | 数量 | 备注 |
---|---|---|---|
汉字1 | \u3007 | 1 | 中文小写数字“〇” |
汉字2 | \u3400-\u4DB5 | 6582 | ExtA 连续 |
汉字3 | \u4E00-\u9FCB | 20940 | 基本集 连续,但9FBC~9FCB暂无字形 |
汉字4 | \uE815-\uE864 | 80 | 自定义区 连续,这些字符有两个unicode编码 |
汉字5 | \uF900-\uFAD9 | 470 | 兼容集 有洞,且[FA2E,FA2F,FA6E,FA6F]暂无字形 |
汉字6 | \u20000-\u2A6D6 | 42711 | ExtB 连续 |
汉字7 | \u2F800-\u2FA1D | 542 | 兼容补遗 连续 |
汉字8 | \u2A700-\u2B734 | 4149 | ExtC 连续 |
汉字9 | \u2B740-\u2B81D | 222 | ExtD 连续 |
- 汉字1\~5已经包含国家标准GB18030-2005《信息技术 中文编码字符集》内的全部汉字(27484个字)
- 汉字6\~9主要是为了编入康熙字典里的汉字(47035个字)都是些打不出来也没法显示的字。
- 实际使用中使用\u4e00-\u9fa5就可以了
- 绝大部分浏览器和系统能显示的汉字范围为[\u3007\u3400-\u4DB5\u4E00-\u9FCB\uF900-\uFA2D]
- 中文小写数字:〇一二三四五六七八九;中文大写数字:零壹贰叁肆伍陆柒捌玖。
PS:所以“二零一七年”这么写是错误的,大小写混用了,应该写成“二〇一七年”
各种数字写法的范围
写法举例 | 范围 | 备注 |
---|---|---|
1 | [0-9] | |
1 | [0-9] | 全角数字 |
一 | [〇一二三四五六七八九] | |
壹 | [零壹贰叁肆伍陆柒捌玖] | |
① | [\u2460-\u2468] | ⓪是\u24EA |
⑴ | [\u2474-\u247c] | 没有0 |
⒈ | [\u2488-\u2490] | 没有0 |
Ⅰ | [\u2160-\u2169] | 没有0 |
❶ | [\u2776-\u277e] | ⓿是\u24FF |
㈠ | [\u3220-\u3229] | 没有0 |
1⁰ | [\u2070-\u2079] | 上标数字0~9 |
1₁ | [\u2080-\u2089] | 下标数字0~9 |
以上只是常用数字区间,中国人能看懂的数字区间为:
[0-90-9\u2460-\u249B\u24EA-\u24FF\u2150-\u218F\u2776-\u277e\u3220-\u3229\uff10-\uff19\u2070-\u2079\u2080-\u2089\u24ea\u24ff零壹贰叁肆伍陆柒捌玖〇一二三四五六七八九]
各种Emoji表情的范围
这个说起来都是泪啊,小日本整什么emoji嘛,单字节的,双字节的,单字节+控制符的,甚至四字节的
在参考了
1、android 输入框EditText禁止输入Emoji表情符
2、Android中过滤Emoji表情 完整版
3、Emoji Unicode Tables
4、Tieba Emoji
5、ZR贴吧营销综合发帖机
等等东西后,有个了还算靠谱的过滤区间
因为实际上绝大部分emoji表情都在第一矩阵平面,所以实际上表情编码在贴吧里会是替代编码
比如?的Unicode实际是\U+1F601但你在管理器里看是\uD83D\uDE01,
也就是说,其实你过滤\uD83D和\uD83C就可以了
范围 | 区间名称 | 备注 |
---|---|---|
[\uD83D][\uDE01-\uDE4F]] | 表情符 | ? |
[\u2702-\u27B0] | 装饰符 | ✂ |
[\uD83D][\uDEC0-\uDE80] | 交通标识 | ? |
未完待续
全部语言一览
区间 | 语言 | 备注 |
---|---|---|
0000-007F | C0控制符及基本拉丁文 C0 Control and Basic Latin | |
0080-00FF | C1控制符及拉丁文补充-1C1 Control and Latin 1 Supplement | |
0100-017F | 拉丁文扩展-ALatin Extended-A | |
0180-024F | 拉丁文扩展-BLatin Extended-B | |
0250-02AF | 国际音标扩展IPA Extensions | |
02B0-02FF | 空白修饰字母Spacing Modifiers | |
0300-036F | 结合用读音符号Combining Diacritics Marks | |
0370-03FF | 希腊文及科普特文Greek and Coptic | |
0400-04FF | 西里尔字母Cyrillic | |
0500-052F | 西里尔字母补充Cyrillic Supplement | |
0530-058F | 亚美尼亚语Armenian | |
0590-05FF | 希伯来文Hebrew | |
0600-06FF | 阿拉伯文Arabic | |
0700-074F | 叙利亚文Syriac | |
0750-077F | 阿拉伯文补充Arabic Supplement | |
0780-07BF | 马尔代夫语Thaana | |
07C0-07FF | 西非书面语言N’Ko | |
0800-085F | 阿维斯塔语及巴列维语Avestan and Pahlavi | |
0860-087F | Mandaic | |
0880-08AF | 撒马利亚语Samaritan | |
0900-097F | 天城文书Devanagari | |
0980-09FF | 孟加拉语Bengali | |
0A00-0A7F | 锡克教文Gurmukhi | |
0A80-0AFF | 古吉拉特文Gujarati | |
0B00-0B7F | 奥里亚文Oriya | |
0B80-0BFF | 泰米尔文Tamil | |
0C00-0C7F | 泰卢固文Telugu | |
0C80-0CFF | 卡纳达文Kannada | |
0D00-0D7F | 德拉维族语Malayalam | |
0D80-0DFF | 僧伽罗语Sinhala | |
0E00-0E7F | 泰文Thai | |
0E80-0EFF | 老挝文Lao | |
0F00-0FFF | 藏文Tibetan | |
1000-109F | 缅甸语Myanmar | |
10A0-10FF | 格鲁吉亚语Georgian | |
1100-11FF | 朝鲜文Hangul Jamo | |
1200-137F | 埃塞俄比亚语Ethiopic | |
1380-139F | 埃塞俄比亚语补充Ethiopic Supplement | |
13A0-13FF | 切罗基语Cherokee | |
1400-167F | 统一加拿大土著语音节Unified Canadian Aboriginal Syllabics | |
1680-169F | 欧甘字母Ogham | |
16A0-16FF | 如尼文Runic | |
1700-171F | 塔加路文Tagalog | |
1720-173F | 哈努诺文Hanunóo | |
1740-175F | 布迪文Buhid | |
1760-177F | 塔格巴努亚文Tagbanwa | |
1780-17FF | 高棉语Khmer | |
1800-18AF | 蒙古文Mongolian | |
1900-194F | 林布文Limbu | |
1950-197F | 德宏傣语Tai Le | |
1980-19DF | 新傣语New Tai Lue | |
19E0-19FF | 高棉语记号Kmer Symbols | |
1A00-1A1F | 布吉文Buginese | |
1A20-1A5F | 巴塔克文Batak | |
1A80-1AEF | 兰纳文Lanna | |
1B00-1B7F | 巴厘语Balinese | |
1B80-1BB0 | 巽他语Sundanese | |
1BC0-1BFF | 杨松录苗文Pahawh Hmong | |
1C00-1C4F | 雷布查语Lepcha | |
1C50-1C7F | Ol Chiki | |
1C80-1CDF | 曼尼普尔语Meithei/Manipuri | |
1D00-1D7F | 语音学扩展Phonetic Extensions | |
1D80-1DBF | 语音学扩展补充Phonetic Extensions Supplement | |
1DC0-1DFF | 结合用读音符号补充Combining Diacritics Marks Supplement | |
1E00-1EFF | 拉丁文扩充附加Latin Extended Additional | |
1F00-1FFF | 希腊语扩充Greek Extended | |
2000-206F | 常用标点General Punctuation | |
2070-209F | 上标及下标Superscripts and Subscripts | |
20A0-20CF | 货币符号Currency Symbols | |
20D0-20FF | 组合用记号Combining Diacritics Marks for Symbols | |
2100-214F | 字母式符号Letterlike Symbols | |
2150-218F | 数字形式Number Form | |
2190-21FF | 箭头Arrows | |
2200-22FF | 数学运算符Mathematical Operator | |
2300-23FF | 杂项工业符号Miscellaneous Technical | |
2400-243F | 控制图片Control Pictures | |
2440-245F | 光学识别符Optical Character Recognition | |
2460-24FF | 封闭式字母数字Enclosed Alphanumerics | |
2500-257F | 制表符Box Drawing | |
2580-259F | 方块元素Block Element | |
25A0-25FF | 几何图形Geometric Shapes | |
2600-26FF | 杂项符号Miscellaneous Symbols | |
2700-27BF | 印刷符号Dingbats | |
27C0-27EF | 杂项数学符号-AMiscellaneous Mathematical Symbols-A | |
27F0-27FF | 追加箭头-ASupplemental Arrows-A | |
2800-28FF | 盲文点字模型Braille Patterns | |
2900-297F | 追加箭头-BSupplemental Arrows-B | |
2980-29FF | 杂项数学符号-BMiscellaneous Mathematical Symbols-B | |
2A00-2AFF | 追加数学运算符Supplemental Mathematical Operator | |
2B00-2BFF | 杂项符号和箭头Miscellaneous Symbols and Arrows | |
2C00-2C5F | 格拉哥里字母Glagolitic | |
2C60-2C7F | 拉丁文扩展-CLatin Extended-C | |
2C80-2CFF | 古埃及语Coptic | |
2D00-2D2F | 格鲁吉亚语补充Georgian Supplement | |
2D30-2D7F | 提非纳文Tifinagh | |
2D80-2DDF | 埃塞俄比亚语扩展Ethiopic Extended | |
2E00-2E7F | 追加标点Supplemental Punctuation | |
2E80-2EFF | CJK 部首补充CJK Radicals Supplement | |
2F00-2FDF | 康熙字典部首Kangxi Radicals | |
2FF0-2FFF | 表意文字描述符Ideographic Description Characters | |
3000-303F | CJK 符号和标点CJK Symbols and Punctuation | |
3040-309F | 日文平假名Hiragana | |
30A0-30FF | 日文片假名Katakana | |
3100-312F | 注音字母Bopomofo | |
3130-318F | 朝鲜文兼容字母Hangul Compatibility Jamo | |
3190-319F | 象形字注释标志Kanbun | |
31A0-31BF | 注音字母扩展Bopomofo Extended | |
31C0-31EF | CJK 笔画CJK Strokes | |
31F0-31FF | 日文片假名语音扩展Katakana Phonetic Extensions | |
3200-32FF | 封闭式 CJK 文字和月份Enclosed CJK Letters and Months | |
3300-33FF | CJK 兼容CJK Compatibility | |
3400-4DBF | CJK 统一表意符号扩展 ACJK Unified Ideographs Extension A | |
4DC0-4DFF | 易经六十四卦符号Yijing Hexagrams Symbols | |
4E00-9FBF | CJK 统一表意符号CJK Unified Ideographs | |
A000-A48F | 彝文音节Yi Syllables | |
A490-A4CF | 彝文字根Yi Radicals | |
A500-A59F | 瓦伊语Vai | |
A640-A69F | 统一加拿大土著语音节补充Unified Canadian Aboriginal Syllabics Supplement | |
A700-A71F | 声调修饰字母Modifier Tone Letters | |
A720-A7FF | 拉丁文扩展-DLatin Extended-D | |
A800-A82F | Syloti Nagri | |
A840-A87F | 八思巴字Phags-pa | |
A880-A8DF | Saurashtra | |
A900-A92F | Kayah Li | |
A930-A95F | 勒姜语Rejang | |
AA00-AA5F | 鞑靼文Cham | |
AC00-D7AF | 朝鲜文音节Hangul Syllables | |
D800-DB7F | 高位替代High Surrogates | |
DB80-DBFF | 高位专用替代High Private Use Surrogates | |
DC00-DFFF | 低位替代Low Surrogates | |
E000-F8FF | 自行使用区域Private Use Zone | |
F900-FAFF | CJK 兼容象形文字CJK Compatibility Ideographs | |
FB00-FB4F | 字母表达形式Alphabetic Presentation Form | |
FB50-FDFF | 阿拉伯表达形式AArabic Presentation Form-A | |
FE00-FE0F | 变量选择符Variation Selector | |
FE10-FE1F | 竖排形式Vertical Forms | |
FE20-FE2F | 组合用半符号Combining Half Marks | |
FE30-FE4F | CJK 兼容形式CJK Compatibility Forms | |
FE50-FE6F | 小型变体形式Small Form Variants | |
FE70-FEFF | 阿拉伯表达形式BArabic Presentation Form-B | |
FF00-FFEF | 半型及全型形式Halfwidth and Fullwidth Form | |
FFF0-FFFF | 特殊Specials |