[問題] 爬蟲問題

看板Python作者 (你爸爸的蛋)時間6年前 (2018/09/29 00:27), 編輯推噓1(108)
留言9則, 3人參與, 6年前最新討論串5/5 (看更多)
狀況是這樣的 有一個csv裡面有n個網址 這幾個網址的格式類似 我目標都是要求出其中的table 那應該要如何寫呢? 我自己寫的程式碼如下 import requests from bs4 import BeautifulSoup f = open(r"C:\python\scripts\xxx.csv","r") lines=f.readlines() lens=len(lines) list = [] for index in range(lens): temp = lines[index] res = requests.get(temp) soup = BeautifulSoup(res.text) list.append(soup.select('table')[0]) 我試著把I+=1擺進迴圈 發現temp = lines[index]沒辦法執行完畢 註:xxx.csv檔案的資料都是網址,只有一個column的資料 資料類型都是http:\\...... 麻煩各路高手了(跪 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.15.82.53 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1538152032.A.3F3.html

09/29 03:11, 6年前 , 1F
for 迴圈改成 for url in lines 比較直接
09/29 03:11, 1F

09/29 03:12, 6年前 , 2F
res = requests.get(url) 這行沒問題,問題是後面保證
09/29 03:12, 2F

09/29 03:12, 6年前 , 3F
毎一個 url 都是有效的? 毎而且都有一個 table ?
09/29 03:12, 3F

09/29 03:13, 6年前 , 4F
沒辦法執行完畢你也要說一下錯在哪
09/29 03:13, 4F

09/29 07:06, 6年前 , 5F
try
09/29 07:06, 5F

09/29 10:13, 6年前 , 6F
好! 感謝你們 我試試看等等把errorcode奉上
09/29 10:13, 6F

09/29 12:04, 6年前 , 7F
最後方向他的網址後面會有跨行\n的字去干擾讀取 改成xlrd
09/29 12:04, 7F

09/29 12:04, 6年前 , 8F
就可以了 感謝各位
09/29 12:04, 8F

09/29 22:32, 6年前 , 9F
... 所以是多了個 '\n'?
09/29 22:32, 9F
文章代碼(AID): #1RhbPWFp (Python)
文章代碼(AID): #1RhbPWFp (Python)