k1995 / BaiduyunSpider 修改

爱百应,百度云网盘搜索引擎,爬虫+网站  搜索爬虫 修改

代码最近更新:主要开发语言:PHP

项目介绍 README

点击右侧README查看项目详情介绍

百度云搜索引擎 + 爬虫

该项目包括,爬虫网站搜索全套程序。

技术栈

  • 网站: PHP Codeigniter
  • 爬虫:Python
  • 搜索引擎:Xunsearch
  • 数据库:MySql

演示

爱百应搜索


以下内容来自BaiduyunSpiderREADME.md文件

BaiduyunSpider

包含百度云网盘爬虫、网站前后端、搜索,整套服务。http://www.githubs.cn/project/16085

爱百应

爱百应

技术栈

  • 网站: PHP Codeigniter
  • 爬虫:Python
  • 搜索引擎:Xunsearch
  • 数据库:MySql

演示站点

附言

这套程序是我大二练手,初学Python写的,一直放在哪儿都要发霉了,现拿来和大家一起共享。代码有些丑,一直没时间维护,很多不足之处望指教。如果关注,感兴趣的人比较多,准备抽时间重构下

另外本人现在大四,17年毕业,熟悉前后端开发,求一份JAVA后台开发工作

有阿里巴巴4个月实习经验,联系邮箱:k19#95328@gm#ail.com

TODO

  • [ ] 分布式爬虫
  • [ ] 爬虫IP代理
  • [ ] Web 控制面板
  • [ ] 死链检测

近期TODO

  • [ ] 重构爬虫 => 采用Node.js
  • [ ] 使用 elasticsearch 搜索引擎

讨论交流

有任何疑问,请在 github 中文社区 发帖。

安装教程

License

GPL

BaiduyunSpider 下的帖子

请问怎么部署? 2

dddddd1 发表于 5个月前 (09-29)

爱百应,百度云网盘搜索引擎安装部署教程 16

kyy 发表于 5个月前 (09-29)

安装完后,打开网站出现这个Your view folder path does not appear to be set correctly. Please open the following file and correct this: 2

ansley 发表于 5个月前 (10-04)

开启爬虫是这样,不知道对不对,errno:-55 1

ansley 发表于 5个月前 (10-05)

弄好了,还有点其他问题,明天再百度,实在是太晚了 2

ansley 发表于 5个月前 (10-05)

首页的昨日收录怎么不显示出来 3

ansley 发表于 5个月前 (10-06)

导入Sql是什么意思?谢谢 3

leo007 发表于 5个月前 (10-06)

首页的tagcloud,怎么改成调用热门搜索关键词 1

ansley 发表于 5个月前 (10-06)

爬虫速度太快,爬几个就开始报错-55了 1

BTC123456 发表于 5个月前 (10-06)

怎么让爬虫开机启动 1

ansley 发表于 5个月前 (10-06)

早上打开网站发现在显示数据又恢复回原来安装时的了 2

ansley 发表于 5个月前 (10-07)

安装后出现下边的提示怎么解决啊 2

nanjiyue 发表于 5个月前 (10-09)

爬虫还是入不了数据库 6

ansley 发表于 5个月前 (10-10)

我用thinkphp重写了一份系统 2

BTC123456 发表于 5个月前 (10-10)

数据库日志 1

ansley 发表于 5个月前 (10-10)

./indexer.php: Permission denied 最后一步出现这个提示 2

nanjiyue 发表于 5个月前 (10-10)

最后一步了不能搜索,帮我看看吧 1

nanjiyue 发表于 5个月前 (10-11)

最近收录列表上面的更新时间有时差,改如何设置呢? 2

mylove 发表于 5个月前 (10-11)

执行./indexer.php后出现如下错误,改怎么设置呢 1

huangzhu 发表于 5个月前 (10-12)

不知道为啥今天实时更新时间那里时间不更新了 2

mylove 发表于 5个月前 (10-12)

能不能让爬虫指定更新网盘的某个用户的资源呢 1

mylove 发表于 5个月前 (10-13)

python进程自动结束 1

ansley 发表于 5个月前 (10-15)

有人将域名恶意解析到我的服务器上了该怎么办啊,只装了了SSBC 3

nanjiyue 发表于 4个月前 (10-16)

今天爬虫爬取不到数据了 1

mylove 发表于 4个月前 (10-18)

请问安装xunsearch这一步xunsearch是安装在同级目录里吗? 2

lolimeow 发表于 4个月前 (10-19)

请按照安装步骤完成后为什么点击搜索变成了404 3

lolimeow 发表于 4个月前 (10-19)

# ./indexer.php 最后一步不成功,请教怎么处理? 6

lfxy520 发表于 4个月前 (10-20)

现在无法采集了吧? 1

bme6111 发表于 4个月前 (10-27)

为啥采集的数量一直那么多 4

gulihua 发表于 4个月前 (10-29)

你好,虽然爬到了数据放到了数据库,但是搜索词放进去,点击搜索,都是显示 找不到和您的查询 "xxx" 相符的内容或信息 但是这个xxx是我看到在数据库中有的,这个是不是xunSearch没有安装全部完成呢? 1

xiaoma 发表于 4个月前 (11-05)

你好,请问 这个索引怎么建立?我爬到数据,但是无法搜索,你这个太强大了!!!! 1

backups 发表于 4个月前 (11-05)

运行python spider.py --seed-user 报错了,请求大神帮忙看看 2

yl2016 发表于 4个月前 (11-09)

$ python spider.py --seed-user 报错了,请求大神帮忙看看 0

yl2016 发表于 4个月前 (11-09)

python ./indexer.php 最后一步出现错误了,请教一下大神!!! 1

kunpeng2010 发表于 4个月前 (11-09)

运行时出现xs.php报错,求大神帮忙看看 1

yl2016 发表于 4个月前 (11-09)

xunsearch 请问在win7下如何安装,求大神指点 2

yl2016 发表于 4个月前 (11-09)

请问爬虫从数据库中没有查到值,怎么办? 2

xiaodela 发表于 4个月前 (11-09)

我改了数据库地址,dabase 和 python里面的地址都改了,为什么还是走的默认本机ip,求指点 0

yl2016 发表于 4个月前 (11-10)

执行./indexer.php的时候出错了,是什么原因?请问大神 1

kunpeng2010 发表于 4个月前 (11-10)

搜索主页出来了,但是点击搜索按钮,出差了,请教大神 1

kunpeng2010 发表于 4个月前 (11-10)

ImportError: No module named MySQLdb,MySQL-python老是报错装不上 5

yl2016 发表于 4个月前 (11-10)

xunsearch报错,求大神指导 0

yl2016 发表于 4个月前 (11-11)

INFO: starting server[xs-indexd] ... (BIND:127.0.0.1:8383)后为什么报错? 7

yl2016 发表于 4个月前 (11-11)

搜不到东西,醉了,求大神 3

yl2016 发表于 4个月前 (11-14)

搜索出来的结果,中文乱码,请问是怎么回事,求教大神! 3

kunpeng2010 发表于 4个月前 (11-14)

运行indexer.php报错。求大神 0

yl2016 发表于 4个月前 (11-14)

运行报错,求助! 3

yl2016 发表于 4个月前 (11-14)

为什么搜出来的数据,都是问号???? 2

yl2016 发表于 4个月前 (11-15)

xunsearch 在centos6.5下如何重装? 或者删除? 0

yl2016 发表于 3个月前 (11-16)

index.php document add error 求解决 2

yl2016 发表于 3个月前 (11-16)

为什么抓取不到数据,3个小时无数据 4

yl2016 发表于 3个月前 (11-18)

开了一中午 一条数据都没有抓上 1

yl2016 发表于 3个月前 (11-18)

还有就是,数据库file表里面的数据,哪些是能搜到的?为什么我新增了搜不到? 2

yl2016 发表于 3个月前 (11-21)

请问怎样 设置这上面的 爬虫速度? 2

yl2016 发表于 3个月前 (11-22)

部署好了 2

chree188 发表于 3个月前 (11-23)

搜索就404什么问题 1

Ranchrn 发表于 3个月前 (11-26)

重写规则在哪里修改呀? 1

laozhaolaole 发表于 3个月前 (12-05)

有一下午采了两万条数据,可搜索不出来,最后一步总是不成功 4

shazig 发表于 3个月前 (12-06)

getShareUser 为什么没有使用? uk值怎么设置》? 1

yl2016 发表于 3个月前 (12-07)

访问json要停留多久才能继续访问,不被封 1

yl2016 发表于 3个月前 (12-07)

搜索有些关键词的时候页面出现404 2

mylove 发表于 3个月前 (12-12)

执行ython spider.py --seed-user报错AttributeError: 'NoneType' object has no attribute 'rollback' 0

loceking 发表于 3个月前 (12-12)

爬虫好像会爬取重复资源 0

xiaohaige 发表于 2个月前 (12-22)

一搜索就No input file specified 3

ZhUGgLianG 发表于 2个月前 (12-29)

请问uk 和 id 都是唯一的吗 1

yl2016 发表于 2个月前 (01-09)

"errno":-6, 请问是什么意思 3

yl2016 发表于 2个月前 (01-11)

提取到的数据,有些是404,有些是被删除的,如何检测数据是否有效? 0

yl2016 发表于 2个月前 (01-12)

你现在为什么要 用 nodejs 做爬虫呢? 2

yl2016 发表于 2个月前 (01-12)

uk,到底从多少开始抓起,多少结束为好?老是抓些重复的,然后都是些匿名,空用户 0

yl2016 发表于 1个月前 (01-16)

查看更多帖子 ... 我要发帖