DarkNet_ChineseTrading - 暗网中文网监控�?�时爬虫
监控大屏(grafana快速�?�现)
功能
- Tor节点切换
- 自动注册(中文式账户)
- 自动登录
- 防封禁
- ORM交互
- 事件详情/样本信息录入
- 事件提醒(
telegram)[图文] - 分类爬取
- 裸体图片过滤(保存但不发送)
- �?�留EXIF-GPS信息提取
加入我们:https://t.me/fordarknetspiderbot
�?�装
-
python环境配�?
下载并�?�装
python 3.8pip install -r ./requirements.txt pip install -U 'requests[socks]' -
tor�?�装
当前需更新tor至[0.4.0.0版本],旧版将有几率无法取得数�? 如果无法通过如下命令�?�装最新版,推荐至�?�网编译�?�装最新源码包
brew install tor cd /usr/local/etc/tor cp torrc.sample ./torrc vi torrc将如下配�?添加到
torrc后,运行restart_tor.sh开启torSOCKSPort 9150 # socks5代理地址 Socks5Proxy 127.0.0.1:1086 # 科学上网代理地址(如已翻墙可不填) RunAsDaemon 1 # 开启后台运行 ControlPort 9151 # 开启控制端口 -
OCR(mac)
识别率略低,可在parser.py的get_captcha处替换
brew install tesseract -
存储环境
�?�装
Docker后下载Redis Mysql即可 -
Centos下环境�?�装
yum install epel-release -y
yum install redis mariadb mariadb-server git tesseract tesseract-langpack-deu tor -y
wget -P /usr/share/tesseract/tessdata/ https://pyocean.com/data/tesseract/snum.traineddata
systemctl start mariadb #启动mariadb
systemctl enable mariadb #�?��?开机自启动
mysql_secure_installation -
运行
配�?
config_dev.py中的连接�?��?�与TelegramRobotTokenmv config_dev.py conf.py bash restart_tor.sh bash restart_task.sh python run.py -
运行逻辑
-
运行结果截图
-
额外命令
python3 run.py --help Usage: run.py [OPTIONS] Options: --debug Print debug log --domain TEXT Target domain. --save_error Whether to save the error log --update Whether it has only been updated to crawl --help Show this message and exit.





