<div dir="ltr"><div dir="ltr"><br><br>On Fri, Nov 9, 2018 at 3:11 PM Ben Pfaff &lt;<a href="mailto:blp@ovn.org">blp@ovn.org</a>&gt; wrote:<br>&gt;<br>&gt; On Fri, Nov 09, 2018 at 03:06:49PM -0800, Han Zhou wrote:<br>&gt; &gt; On Fri, Nov 9, 2018 at 2:34 PM Ben Pfaff &lt;<a href="mailto:blp@ovn.org">blp@ovn.org</a>&gt; wrote:<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; On Wed, Nov 07, 2018 at 11:01:20PM -0800, Han Zhou wrote:<br>&gt; &gt; &gt; &gt; Now comes to my question. The time when all the GW BFD status went down<br>&gt; &gt; &gt; &gt; matches perfectly with the time when the port number 65535 is used.<br>&gt; &gt; &gt; &gt; However, I still didn&#39;t understand why would using the port number 65535<br>&gt; &gt; &gt; &gt; cause BFD status down on all tunnels (to other GWs and all hypervisors).<br>&gt; &gt; &gt; &gt; Could someone help explain here, so that we are confident that there is<br>&gt; &gt; no<br>&gt; &gt; &gt; &gt; other potential problems?<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; It&#39;s not obvious to me why it would cause a BFD problem.  Is it<br>&gt; &gt; &gt; difficult to look into it?<br>&gt; &gt;<br>&gt; &gt; It was on a live environment. It was recovered after quickly restart OVS.<br>&gt; &gt; From the logs I can&#39;t find out more hints. In a test environment I could<br>&gt; &gt; reproduced the port number 65535 problem easily but it didn&#39;t triggered the<br>&gt; &gt; tunnel BFD status down problem. I may try more to reproduce and debug, but<br>&gt; &gt; in general what could cause all BFD status down (while network connection<br>&gt; &gt; to the node is fine).<br>&gt;<br>&gt; My first thought is something that keeps the BFD thread from receiving<br>&gt; or sending BFD packets.  Maybe the BFD thread is confused by the<br><div>&gt; out-of-range port number somehow.</div><div><br></div><div>Sorry that I didn&#39;t have time to dig more about the link between the out-of-range port number and the BFD problem. I de-prioritized this since the problem is now fixed. (In addition, I observed on hypervisors that has this port number 65535 allocated followed by OVS restart after a while, so there are different behaviors resulted from the out-of-range port).</div><div><br></div><div>Now as a follow up, I submitted a fix to avoid the duplicated chassis IP problem:</div><div><a href="https://mail.openvswitch.org/pipermail/ovs-dev/2018-November/353855.html">https://mail.openvswitch.org/pipermail/ovs-dev/2018-November/353855.html</a></div><div><br></div><div>I didn&#39;t go ahead to update ovn-controller to detect and remove the old entry, because it is violating the RBAC design.<br></div><div><br></div></div></div>