20210227: Python3 - HTML を re.search できない

状況

HTML を拾ってきて正規表現で処理しようと以下のようなコードを書いたら

#!/usr/bin/env python3
import urllib.request
import re

url = 'https://example.com/'
with urllib.request.urlopen(url) as response:
    html = response.read()
m = re.search(r'(?s)<body>(.*)</body>', html)

以下のようなエラーが出た。

$ ./hoge.py 
Traceback (most recent call last):
  File "./hoge.py", line 8, in <module>
    m = re.search(r'(?s)<body>(.*)</body>', html)
  File "/usr/lib/python3.8/re.py", line 201, in search
    return _compile(pattern, flags).search(string)
TypeError: cannot use a string pattern on a bytes-like object

原因

「cannot use a string pattern on a bytes-like object python regex」でググると以下のページを見つけた。

stackoverflow / 2015-06-21: TypeError: can't use a string pattern on a bytes-like object in re.findall()

以下のようにして UTF-8 に直せとのこと

html = response.read().decode('utf-8')

このページを編集するこのページを元に新規ページを作成

印刷する

20210227: Python3 - HTML を re.search できない - PIB 先頭へ

タグ

コメントをかく

名前	ユーザIDを使用しないで書き込む	ユーザーIDを使う	ログインする
画像コード	画像に記載されている文字を下のフォームに入力してください。
備考	「http://」を含む投稿は禁止されています。
本文
利用規約をご確認のうえご記入下さい

PIB

20210227: Python3 - HTML を re.search できない

状況

原因

コメントをかく

Wiki内検索

最近更新したページ

2024-05-04

2024-05-02

2024-05-01

2024-04-29

2024-04-26

2024-04-18

2024-04-11

2024-04-09

2024-04-08

2024-04-06

カテゴリー

インターネット

書籍/雑誌

暮らし/生活

パソコン

趣味

学問・理系

フリーエリア

アクセス解析中