控制字符
控制字符(Control Character),或者說非打印字符,出現于特定的信息文本中,表示某一控制功能的字符,如控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BS(退格)、BEL(振鈴)等;通訊專用字符:SOH(文頭)、EOT(文尾)、ACK(確認)等。
具體控制字符一共有下面兩個集合:
七位ASCII定義了33個代碼作為控制字符,它們是0到31、以及127,(位于0x00-0x1F及0x7F)。
兼容的八位ISO/IEC 8859-1加上了從ISO/IEC 6429定義的從128到159的32個代碼,位于0x80-0x9F。
控制字符列表:http://ascii-table.com/control-chars.php
Python解決控制字符的方案:(未一一驗證)
方案一:
strip_control_characters = lambda s:"".join(i for i in s if 31<ord(i)<127)
方案二:
def strip_control_characters(str_input): if str_input: import re # unicode invalid characters RE_XML_ILLEGAL = u'([/u0000-/u0008/u000b-/u000c/u000e-/u001f/ufffe-/uffff])' + / u'|' + / u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])' % / (unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), ) str_input = re.sub(RE_XML_ILLEGAL, "", input) # ascii control characters str_input = re.sub(r"[/x01-/x1F/x7F]", "", input) return str_input
方案三:
import re def remove_control_chars(s): control_chars = ''.join(map(unichr, range(0,32) + range(127,160))) control_char_re = re.compile('[%s]' % re.escape(control_chars)) return control_char_re.sub('', s) cleaned_json = remove_control_chars(original_json)obj = simplejson.loads(cleaned_json)
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家學習或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流。
新聞熱點
疑難解答