go中url.ParseRequestURI和url.Parse函数的踩坑记-五八三

大家好，我是渔夫子。

今天给大家分享一下我在实际工作中使用url.Parse和url.ParseRequestURI两个函数时遇到的一个问题。

问题是这样的：当要解析的url字符串中包含有字符“#”时，使用url.Parse解析，会导致#后面的参数解析不出来。而使用ParseRequestURI就能解析到。

接下来我们看下为什么url.Parse函数会把 # 号后面的参数给省略掉。

首先，我们有一个url地址，如下：

http://localhost?wifi=true&carrier=#Staysafe AIS&os=android

在这个url中有三个参数wifi、carrier和os。其中carrier值中包含有特殊字符 #。
我们看下分别使用两个函数对该url进行解析的结果。

使用url.Parse函数

package main





import (

	"fmt"

	"net/url"

)



func main() {

	attrRawUrl := "http://localhost?wifi=true&carrier=#Staysafe AIS&os=android"



	urlObj, _ := url.Parse(attrRawUrl)


	fmt.Printf("urlObj:%#v\n", *urlObj)

}

将解析后的urlObj变量打印出来如下：

url.URL{

    Scheme:"http", 

    Opaque:"", 

    User:(*url.Userinfo)(nil), 

    Host:"localhost", 

    Path:"", 

    RawPath:"", 

    OmitHost:false, 

    ForceQuery:false, 

    RawQuery:"wifi=true&carrier=", 
    Fragment:"Staysafe AIS&os=android", 
    RawFragment:"Staysafe AIS&os=android"
}

这里，我们注意解析后的RawQuery字段的值是”wifi=true&carrier=”，carrier的值是空，#号后面的值被填充到了Fragment字段中。

在使用urlObj.Values函数将RawQuery字段的字符串解析到map时，发现carrier后面的参数os竟然没有解析到。

使用url.ParseRequestURI函数

package main





import (

	"fmt"

	"net/url"

)



func main() {

	attrRawUrl := "http://localhost?wifi=true&carrier=#Staysafe AIS&os=android"



	urlObj, _ := url.ParseRequestURI(attrRawUrl)


	fmt.Printf("urlObj:%#v\n", *urlObj)

}

我们再来打印出urlObj变量，如下：

url.URL{

    Scheme:"http", 

    Opaque:"", 

    User:(*url.Userinfo)(nil), 

    Host:"localhost", 

    Path:"", 

    RawPath:"", 

    OmitHost:false, 

    ForceQuery:false, 

    RawQuery:"wifi=true&carrier=#Staysafe AIS&os=android", 
    Fragment:"", 
    RawFragment:""
}

这里RawQuery字段中的值是”wifi=true&carrier=#Staysafe AIS&os=android”，#号后面的字符串并未被阶段。

url.Parse和url.ParseRequestURI的区别

我们再来看下这两个函数的实现是有什么区别

如上图，在实现上，url.Parse显示以将 # 符号前后做了截断处理。而ParseRequestURI函数则没有。其他的两个函数基本是一样的。

URL中的#号是什么

#代表网页中的一个位置。其右面的字符，就是该位置的标识符。比如

http://www.example.com/index.html#print

就代表网页index.html的print位置。浏览器读取这个URL后，会自动将print位置滚动至可视区域。
为网页位置指定标识符，有两个方法。一是使用锚点，比如<a name="print"></a>，二是使用id属性，比如 <div id="print" >。

HTTP请求不包括#

#是用来指导浏览器动作的，对服务器端完全无用。所以，HTTP请求中不包括#。
比如，访问下面的网址

http://www.example.com/index.html#print

浏览器实际发出的请求是这样的：

　GET /index.html HTTP/1.1




　Host: www.example.com

可以看到，只是请求index.html，根本没有”#print”的部分。

#后的字符

在第一个#后面出现的任何字符，都会被浏览器解读为位置标识符。这意味着，这些字符都不会被发送到服务器端。
比如，下面URL的原意是指定一个颜色值：

http://www.example.com/?color=#fff

但是，浏览器实际发出的请求是：

　　GET /?color= HTTP/1.1




　　Host: www.example.com

可以看到，”#fff”被省略了。只有将#转码为%23，浏览器才会将其作为实义字符处理。也就是说，上面的网址应该被写成：

http://example.com/?color=%23fff

总上所述，#号的面向对象是浏览器，而非服务端。如果是通过服务端给服务端发送url请求，则服务端依然会收到#号后的字符。所以在解析时，就需要注意用对相应的函数。

总结

#号是给浏览器用来定位网页位置用的。在url中包含#号时，浏览器不会将其后面的字符串发送到服务端。但如果是服务端通过程序发送url时，则不受这个限制。所以，在使用url.Parse解析url地址时，需要注意其会以#号为基准，将url地址截取为两部分。但url.ParseRequestURI则不会。在实际使用中根据自己的使用场景要正确选择。

文章版权归作者所有，未经允许请勿转载，侵权请联系 admin@trc20.tw 删除。

THE END

# 后端 # 程序员 # Go