Commit 2dfb55ce authored by 白条—徐加哲 's avatar 白条—徐加哲

haha

parent d875aaa1
百老汇的旋律
西线无战事
西线无战事 8.5 1295116
壮志千秋
壮志千秋 7.1 1295928
歌舞大王齐格飞
歌舞大王齐格飞 7.5 1294874
左拉传
左拉传 7.8 1293216
乱世佳人
乱世佳人 9.2 1300267
蝴蝶梦
蝴蝶梦 8.2 1293824
蝴蝶梦 1304425
蝴蝶梦 7.9 10729574
蝴蝶梦 21334459
蝴蝶梦 19955810
忠勇之家
忠勇之家 7.5 1300321
卡萨布兰卡
卡萨布兰卡 8.6 1296753
黄金时代
黄金时代 7.1 10545939
黄金时代 8.2 1294100
黄金时代 7.6 1293667
黄金时代 4059242
君子协定
君子协定 6.7 1292808
君子协定 7.8 2067658
哈姆雷特
哈姆雷特 8.1 1301717
哈姆雷特 7.0 1428237
哈姆雷特 8.5 3931832
哈姆雷特 6.9 1301694
哈姆雷特 8.4 26588017
哈姆雷特 7.9 1293802
哈姆雷特 2134704
哈姆雷特 8.6 2147918
哈姆雷特 8.5 1840493
哈姆雷特 7.7 26325241
哈姆雷特 1987014
戏王之王
戏王之王 6.0 2067505
戏王之王 6.9 1292730
乱世忠魂
乱世忠魂 7.6 1298656
码头风云
码头风云 7.9 1292521
桂河大桥
桂河大桥 8.3 1294958
金粉世界
金粉世界 6.9 1298127
阿拉伯的劳伦斯
阿拉伯的劳伦斯 8.6 1292349
汤姆琼斯
窈窕淑女
窈窕淑女 8.0 1297965
窈窕淑女 3104219
窈窕淑女 25886466
四季之人
炎热的夜晚
炎热的夜晚 7.7 1295480
教父1
教父 9.2 1291841
骗中骗
骗中骗 8.7 1292269
教父2
教父 9.2 1291841
教父2 9.1 1299131
克莱默夫妇
克莱默夫妇 8.5 1300685
凡夫俗子
走出非洲
走出非洲 8.5 1291840
末代皇帝溥仪
末代皇帝 8.9 1293172
为黛西小姐开车
为黛西小姐开车 8.2 1293204
与狼共舞
与狼共舞 8.9 1293764
与狼共舞 8.9 3220013
共舞 7.8 2119058
辛德勒的名单
辛德勒的名单 9.4 1295124
魔戒3王者归来
国王的演讲
国王的演讲 8.3 4023638
聚焦
聚焦 8.8 25954475
聚焦 7.8 5998062
爱 8.5 4798707
爱 7.0 6730004
爱 8.1 1300711
爱 5.9 4122269
爱 6.4 5032127
爱 6.6 1308287
爱 7.3 1460394
爱 5.2 20152399
爱 6.4 26635344
爱 2241246
爱 7015717
爱 5993154
爱 19964010
巴顿芬克
百万奖金梦
被解救的姜戈
被解救的姜戈 8.5 6307447
奔腾年代
奔腾年代 8.4 1307535
本杰明巴顿奇事
成长教育
成长教育 7.7 3011093
达拉斯买家俱乐部
达拉斯买家俱乐部 8.6 1793929
点球成金
点球成金 8.2 3023164
冬天的骨头
冬天的骨头 7.3 3610676
斗士
斗士 7.9 2056093
斗士 7.4 1420087
斗士 2068368
飞行者
菲洛梅娜
菲洛梅娜 8.4 19973780
福斯特对话尼克松
对话尼克松 8.0 2062678
孩子们都很好
孩子们都很好 7.5 3569969
后裔
后裔 7.5 3071509
后裔 5.9 25908941
后裔 7.8 3751032
后裔 1293068
后裔 3227224
后裔 1305517
局内人
局内人 7.6 25862354
局内人 7.7 1441801
卡波特
卡波特 7.8 1422957
朗读者
朗读者 8.5 2213597
猎杀本·拉登斩首行动
猎杀本·拉登 7.6 6430835
林肯
林肯 7.7 1889242
灵魂歌王
灵魂歌王 8.3 1309085
灵异第六感
第六感 8.8 1297630
硫磺岛家书
美国骗局
美国骗局 6.6 6873657
骗局 6.6 3566747
骗局 6.6 1793918
骗局 5.0 25710754
骗局 7.2 2969017
迷失东京
迷失东京 7.7 1291835
迷雾庄园
米尔克
米尔克 8.3 2336737
慕尼黑
慕尼黑 7.8 1438338
南国野兽
南国野兽 7.6 7015714
尼克松
尼克松 7.6 1297419
浓情巧克力
浓情巧克力 8.0 1301890
怒海争锋
怒海争锋 7.7 1307749
女王
女王 7.7 1866264
女王 6.9 6801423
弱点
弱点 8.4 3552028
社交网络
社交网络 8.1 3205624
神秘河
神秘河 7.8 1307748
时时刻刻
时时刻刻 8.5 1305666
时时刻刻 5224825
赎罪
赎罪 8.2 1950148
她Her
她 8.3 6722879
特别响
通天塔
通天塔 8.0 1498818
晚安
晚安 艾琳 7.2 3077982
乌云背后的幸福线
乌云背后的幸福线 7.7 3094909
无耻混蛋
无耻混蛋 8.4 1438652
午夜巴黎
午夜巴黎 8.2 4319218
相助
相助 8.8 3792848
血色黑金
寻找梦幻岛
寻找梦幻岛 7.8 1308831
梦幻岛 5.2 19933349
严肃的男人
严肃的男人 7.4 3135483
阳光小美女
阳光小美女 8.2 1777612
意外边缘
意外边缘 7.3 1306604
英雄不问出处
永不妥协
永不妥协 8.3 1293050
雨果的秘密
雨果 7.6 2028677
在云端
在云端 7.9 3077791
战马
战马 8.0 4206436
战马 9.1 25768090
战马 一个真实的故事 8.6 25923690
珍爱
珍爱 8.1 3011072
珍爱 6.4 25770196
朱诺
朱诺 7.9 2132495
#-*- coding: UTF-8 -*-
import sys
import time
import urllib
import urllib2
import requests
import numpy as np
from bs4 import BeautifulSoup
from openpyxl import Workbook
f = open("./data.log")
name = ''
res = set()
for l in f.readlines():
line = l.strip().split('\t')
if len(line) >= 2:
#print len(line), line
_name, score, sid = line
if not score or float(score) <= 8.4:
continue
#print "%s\t%s\t%s"%(tuple(line))
print _name
else:
name = line[0]
#print name
(
'西线无战事'
'乱世佳人'
'卡萨布兰卡'
'哈姆雷特'
'阿拉伯的劳伦斯'
'教父'
'骗中骗'
'教父'
'教父2'
'克莱默夫妇'
'走出非洲'
'末代皇帝'
'与狼共舞'
'辛德勒的名单'
'聚焦'
'爱'
'被解救的姜戈'
'达拉斯买家俱乐部'
'朗读者'
'第六感'
'时时刻刻'
'相助'
'战马'
'战马 一个真实的故事')
#-*- coding: UTF-8 -*-
import sys
import time
import urllib
import urllib2
import requests
import numpy as np
from bs4 import BeautifulSoup
from openpyxl import Workbook
reload(sys)
sys.setdefaultencoding('utf8')
#Some User Agents
hds=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}, \
{'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'}, \
{'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'}]
def book_spider(book_tag):
page_num=0;
book_list=[]
try_times=0
while(1):
#url='http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start=0' # For Test
url='http://www.douban.com/tag/'+urllib.quote(book_tag)+'/book?start='+str(page_num*15)
time.sleep(np.random.rand()*5)
#Last Version
try:
req = urllib2.Request(url, headers=hds[page_num%len(hds)])
source_code = urllib2.urlopen(req).read()
plain_text=str(source_code)
except (urllib2.HTTPError, urllib2.URLError), e:
print e
continue
##Previous Version, IP is easy to be Forbidden
#source_code = requests.get(url)
#plain_text = source_code.text
soup = BeautifulSoup(plain_text)
list_soup = soup.find('div', {'class': 'mod book-list'})
try_times+=1;
if list_soup==None and try_times<200:
continue
elif list_soup==None or len(list_soup)<=1:
break # Break when no informatoin got after 200 times requesting
for book_info in list_soup.findAll('dd'):
title = book_info.find('a', {'class':'title'}).string.strip()
desc = book_info.find('div', {'class':'desc'}).string.strip()
desc_list = desc.split('/')
book_url = book_info.find('a', {'class':'title'}).get('href')
try:
author_info = '作者/译者: ' + '/'.join(desc_list[0:-3])
except:
author_info ='作者/译者: 暂无'
try:
pub_info = '出版信息: ' + '/'.join(desc_list[-3:])
except:
pub_info = '出版信息: 暂无'
try:
rating = book_info.find('span', {'class':'rating_nums'}).string.strip()
except:
rating='0.0'
try:
#people_num = book_info.findAll('span')[2].string.strip()
people_num = get_people_num(book_url)
people_num = people_num.strip('人评价')
except:
people_num ='0'
book_list.append([title,rating,people_num,author_info,pub_info])
try_times=0 #set 0 when got valid information
page_num+=1
print 'Downloading Information From Page %d' % page_num
return book_list
def get_people_num(url):
#url='http://book.douban.com/subject/6082808/?from=tag_all' # For Test
try:
req = urllib2.Request(url, headers=hds[np.random.randint(0,len(hds))])
source_code = urllib2.urlopen(req).read()
plain_text=str(source_code)
except (urllib2.HTTPError, urllib2.URLError), e:
print e
soup = BeautifulSoup(plain_text)
people_num=soup.find('div',{'class':'rating_sum'}).findAll('span')[1].string.strip()
return people_num
def do_spider(book_tag_lists):
book_lists=[]
for book_tag in book_tag_lists:
book_list=book_spider(book_tag)
book_list=sorted(book_list,key=lambda x:x[1],reverse=True)
book_lists.append(book_list)
return book_lists
def print_book_lists_excel(book_lists,book_tag_lists):
wb=Workbook(optimized_write=True)
ws=[]
for i in range(len(book_tag_lists)):
ws.append(wb.create_sheet(title=book_tag_lists[i].decode())) #utf8->unicode
for i in range(len(book_tag_lists)):
ws[i].append(['序号','书名','评分','评价人数','作者','出版社'])
count=1
for bl in book_lists[i]:
ws[i].append([count,bl[0],float(bl[1]),int(bl[2]),bl[3],bl[4]])
count+=1
save_path='book_list'
for i in range(len(book_tag_lists)):
save_path+=('-'+book_tag_lists[i].decode())
save_path+='.xlsx'
wb.save(save_path)
if __name__=='__main__':
#book_tag_lists = ['心理','判断与决策','算法','数据结构','经济','历史']
#book_tag_lists = ['传记','哲学','编程','创业','理财','社会学','佛教']
#book_tag_lists = ['思想','科技','科学','web','股票','爱情','两性']
#book_tag_lists = ['计算机','机器学习','linux','android','数据库','互联网']
#book_tag_lists = ['数学']
#book_tag_lists = ['摄影','设计','音乐','旅行','教育','成长','情感','育儿','健康','养生']
#book_tag_lists = ['商业','理财','管理']
#book_tag_lists = ['名著']
#book_tag_lists = ['科普','经典','生活','心灵','文学']
#book_tag_lists = ['科幻','思维','金融']
book_tag_lists = ['个人管理','时间管理','投资','文化','宗教']
book_lists=do_spider(book_tag_lists)
print_book_lists_excel(book_lists,book_tag_lists)
This diff is collapsed.
冰血暴 [电视剧] 冰血暴 第一季 8.9 24297912
冰血暴 [电视剧] 冰血暴 第二季 9.2 25919897
冰血暴 [电视剧] 冰血暴 第三季 8.3 26671380
大西洋帝国 [电视剧] 大西洋帝国 第一季 8.9 3401355
大西洋帝国 [电视剧] 大西洋帝国 第五季 9.3 25735931
大西洋帝国 [电视剧] 大西洋帝国 第三季 9.3 10597950
大西洋帝国 [电视剧] 大西洋帝国 第四季 9.3 20429050
大西洋帝国 [电视剧] 大西洋帝国 第二季 9.2 5403958
副总统 [电视剧] 副总统 第一季 8.3 5379824
副总统 [电视剧] 副总统 第二季 9.0 10797516
副总统 [电视剧] 副总统 第三季 9.3 24522927
副总统 [电视剧] 副总统 第四季 9.2 25871680
副总统 [电视剧] 副总统 第五季 9.4 26366493
副总统 [电视剧] 副总统 第六季 8.7 26776810
格莫拉 [电影] 格莫拉 7.4 3040438
格莫拉 [电视剧] 格莫拉 第一季 9.0 7051471
格莫拉 [电视剧] 格莫拉 第二季 8.9 26792604
广告狂人 [电视剧] 广告狂人 第一季 8.6 2149047
广告狂人 [电视剧] 广告狂人 第二季 9.0 3231824
广告狂人 [电视剧] 广告狂人 第三季 9.2 3807886
广告狂人 [电视剧] 广告狂人 第四季 9.3 4765764
广告狂人 [电视剧] 广告狂人 第五季 9.3 6859640
广告狂人 [电视剧] 广告狂人 第六季 9.1 11584411
广告狂人 [电视剧] 广告狂人 第七季 9.4 24859448
海军罪案调查处 [电视剧] 海军罪案调查处 第一季 8.6 1431600
海军罪案调查处 [电视剧] 海军罪案调查处 第二季 9.1 4013747
海军罪案调查处 [电视剧] 海军罪案调查处 第四季 9.0 3993712
海军罪案调查处 [电视剧] 海军罪案调查处 第七季 9.0 4039082
海军罪案调查处 [电视剧] 海军罪案调查处 第六季 9.1 3832592
海军罪案调查处 [电视剧] 海军罪案调查处 第五季 9.1 3800257
海军罪案调查处 [电视剧] 海军罪案调查处 第十季 8.9 11498651
海军罪案调查处 [电视剧] 海军罪案调查处 第十一季 8.7 24744570
海军罪案调查处 [电视剧] 海军罪案调查处 第十二季 8.6 25977930
海军罪案调查处 [电视剧] 海军罪案调查处 第十三季 8.9 26387825
海军罪案调查处 [电视剧] 海军罪案调查处 第十四季 8.4 26862589
黑镜 [电视剧] 黑镜 第一季 9.3 7054120
黑镜 [电视剧] 黑镜 第二季 9.1 11502153
黑镜 [电视剧] 黑镜 第三季 8.7 25966044
急诊室的故事 [电视剧] 急诊室的故事 第一季 9.3 10575369
急诊室的故事 [电视剧] 急诊室的故事 第二季 9.2 10577998
急诊室的故事 [电视剧] 急诊室的故事 第三季 9.0 10577980
急诊室的故事 [电视剧] 急诊室的故事 第五季 8.9 10580063
急诊室的故事 [电视剧] 急诊室的故事 第四季 8.9 10580061
急诊室的故事 [电视剧] 急诊室的故事 第六季 9.0 10580064
急诊室的故事 [电视剧] 急诊室的故事 第八季 8.9 10581391
急诊室的故事 [电视剧] 急诊室的故事 第七季 8.9 10580065
急诊室的故事 [电视剧] 急诊室的故事 第九季 8.7 10581393
急诊室的故事 [电视剧] 急诊室的故事 第十五季 8.5 10593456
急诊室的故事 [电视剧] 急诊室的故事 第十季 8.6 10581395
急诊室的故事 [电视剧] 急诊室的故事 第十一季 8.4 10590955
急诊室的故事 [电视剧] 急诊室的故事 第十二季 8.8 1301411
江城警事 [电视剧] 江城警事 6.7 26263431
流言终结者 [电视剧] 流言终结者 第一季 9.3 2073800
流言终结者 [电视剧] 流言终结者 第九季 9.4 5941476
流言终结者 [电视剧] 流言终结者 第八季 9.6 10488667
流言终结者 [电视剧] 流言终结者 第五季 9.7 3369669
流言终结者 [电视剧] 流言终结者 第十二季 9.5 10808258
流言终结者 [电视剧] 流言终结者 第六季 9.6 3369645
流言终结者 [电视剧] 流言终结者 第十季 9.5 20280123
流言终结者 [电视剧] 流言终结者 第二季 9.6 11506939
流言终结者 [电视剧] 流言终结者 第三季 9.6 11523434
流言终结者 [电视剧] 流言终结者 第七季 9.6 11523445
流言终结者 [电视剧] 流言终结者 第四季 9.7 11523438
流言终结者 [电视剧] 流言终结者 第十三季 9.4 25819681
流言终结者 [电视剧] 流言终结者 第十五季 9.3 25802359
流言终结者 [电视剧] 流言终结者 第十一季 9.5 25899601
纽约灾星 [电视剧] 纽约灾星 9.1 26292143
实习医生格蕾 [电视剧] 实习医生格蕾 第十二季 8.5 26384769
实习医生格蕾 [电视剧] 实习医生格蕾 第一季 8.8 1395471
实习医生格蕾 [电视剧] 实习医生格蕾 第三季 8.7 3275421
实习医生格蕾 [电视剧] 实习医生格蕾 第五季 8.9 3226814
实习医生格蕾 [电视剧] 实习医生格蕾 第八季 9.1 6850280
实习医生格蕾 [电视剧] 实习医生格蕾 第九季 9.1 10755097
实习医生格蕾 [电视剧] 实习医生格蕾 第十季 9.0 24697590
实习医生格蕾 [电视剧] 实习医生格蕾 第十一季 8.4 25891903
实习医生格蕾 [电视剧] 实习医生格蕾 第十三季 8.6 26740388
实习医生格蕾 [电视剧] 实习医生格蕾 第十四季 26973198
实习医生格蕾 [电视剧] 实习医生格蕾 第二季 8.9 3275416
实习医生格蕾 [电视剧] 实习医生格蕾 第四季 8.7 3275425
实习医生格蕾 [电视剧] 实习医生格蕾 第六季 9.0 4001699
实习医生格蕾 [电视剧] 实习医生格蕾 第七季 9.0 5262276
实习医生格蕾 [电视剧] 实习医生 第一季 9.3 5152622
唐顿庄园 [电视剧] 唐顿庄园 第二季 8.9 5990367
唐顿庄园 [电视剧] 唐顿庄园 第六季 9.2 26254370
唐顿庄园 [电视剧] 唐顿庄园 第三季 8.9 6985315
唐顿庄园 [电视剧] 唐顿庄园 第五季 8.7 25768128
唐顿庄园 [电视剧] 唐顿庄园 第一季 9.2 4769314
唐顿庄园 [电视剧] 唐顿庄园 第四季 8.2 20398945
IT狂人 [电视剧] IT狂人 第一季 8.9 1758810
IT狂人 [电视剧] IT狂人 第二季 9.3 3570688
IT狂人 [电视剧] IT狂人 第三季 9.3 3345619
IT狂人 [电视剧] IT狂人 第四季 9.3 4850563
傲慢与偏见
冰血暴
大西洋帝国
犯罪现场鉴证
废材联盟
副总统
格莫拉
广告狂人
海军罪案调查处
黑镜
急诊室的故
流言终结者
纽约灾星
实习医生格蕾
唐顿庄园
无耻家庭
IT狂人
真探
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment