url地址怎么获取（网页url地址怎么获取）_文艺欣赏_教育文化

url地址怎么获取（网页url地址怎么获取）

2023-05-28 互联网0

核心提示：大黑客呢？肯定会自己写脚本，不要一条一条的去敲命令，这里简单的利用lynx这个命令的应用来提取特点的web页面中的一系列的url，你看把，这是小编的编辑器，不错把，挺漂亮的颜色，小编挺幸苦搞这个编辑器，给小编加个油吧，文章最后我会贴出源代

url地址怎么获取（网页url地址怎么获取）

大黑客呢？肯定会自己写脚本，不要一条一条的去敲命令，这里简单的利用lynx这个命令的应用来提取特点的web页面中的一系列的url，

你看把，这是小编的编辑器，不错把，挺漂亮的颜色，小编挺幸苦搞这个编辑器，给小编加个油吧，文章最后我会贴出源代码！！

我来说说这个脚本的工作原理

在显示页面时候，lynx会以最佳的格式显示页面文本，它可以跟随页面上的所有超文本引用或链接。该脚本在提取链接的时候，只使用sed打印出页面文本中references字符串之后的所有内容。然后根据用户指定的选项来处理链接列表。

上面的只是我在linux里写的一些代码，等等我会把源代码放出来，不懂的可以问问我，提取网页的链接其实是很有用的。

我们运行一下我写的代码

你看从百度的网站找到这么多链接，是不是挺有成就感的！！！！

Bash getlinks.sh http://www.amazon.com | wc –l

还能统计有多少条链接，亚马孙的一共有134条链接。

Bash getlinks.sh -d htt://www.baidu.com

这个去掉了前面的http://,就可以看见这些链接指向了多少不同的域。

你看吧，效果很不错吧！！！

写在最后，我们是做教育的，希望大伙能学到东西是我们不变的初衷！！最后我先把代码贴出来：

#!/bin/bash

#Date 2019-09-22

if [ $# -eq 0 ];then

echo “Usage:$0 [-d|-i|-x] url” >&2

echo “-d=domains only,-i=internal refs only,-x=external only” >&2

exit 1

if [ $# -gt 1 ];then

case “$1″ in

-d) lastcmd=”cut -d/ -f3 | sort |uniq”

shift

;;

-r) basedomain=”http://$(echo $2 | cut -d -f3)/”

lastcmd=”grep ”^$basedomain” | sed ”s|$basedomain||g” | sort|

uniq”

shift

;;

-a) basedomain=”http://$(echo $2 | cut -d/ -f3)/”

lastcmd=”grep -v ”^$basedomain” | sort | uniq”

shift

;;

*) echo “$0 unknown option specified: $1″ >&2

exit 1

esac

else

lastcmd=”sort | uniq”

lynx -dump “$1” |

sed -n ‘/^References$/,$p’ |

grep -E ‘[[:digit:]]+.’ |

awk ‘{print $2}’ |

cut -d? -f1 |

eval $lastcmd

exit 0

免责声明：本文仅代表作者个人观点，与爱美生活网（本网）无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
本网站有部分内容均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，若因作品内容、知识产权、版权和其他问题，请及时提供相关证明等材料并与我们留言联系，本网站将在规定时间内给予删除等相关处理.