利用Hive的正则匹配中文时需要注意:

  • 中文的字符集合为[\u4e00-\u9fa5]
  • 但是hive在hive执行中会被转义,因此需要增加一次java的转义字符才能够正确使用

例如: select title from vid_title where type='my' and title rlike '^[\\\u4e00-\\\u9fa5]{1,2}$'