<div dir="ltr">Hi all,<div><br></div><div>We use OVS extensively and have a fair amount of experience operating and debugging it.</div><div><br></div><div>Recently we&#39;ve come up against an issue we&#39;ve not seen before.</div><div><br></div><div>I should say we are running an older build of OVS due to the fact that it&#39;s worked for years and is somewhat disruptive to upgrade:</div><div><br></div><div><div>$ovs-vsctl --version</div><div>ovs-vsctl (Open vSwitch) 2.3.0</div><div>Compiled Oct 29 2014 18:25:11</div><div>DB Schema 7.6.0</div></div><div><br></div><div><div>$uname -a</div><div>Linux REDACTED 3.19.0-59-generic #65~14.04.1-Ubuntu SMP Tue Apr 19 18:57:09 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux</div></div><div><br></div><div>On one or two hosts (out of hundreds) we are seeing errors in ovs-vswitchd.log like:</div><div><br></div><div>2017-03-03T16:51:48.021Z|26523023|dpif|WARN|system@ovs-system: failed to add veth548eth1 as port: Too many open files<br></div><div><br></div><div>We have ulimit set to 65k file descriptors and indeed they are all in use and almost all are netlink sockets to the kernel:</div><div><br></div><div><div>$sudo lsof -p $(cat /var/run/openvswitch/ovs-vswitchd.pid) | grep netlink | wc -l</div><div>65446</div></div><div><br></div><div><div>$sudo lsof -p $(cat /var/run/openvswitch/ovs-vswitchd.pid) | wc -l</div><div>65536</div></div><div><br></div><div><div>$cat /proc/$(cat /var/run/openvswitch/ovs-vswitchd.pid)/limits | grep open</div><div>Max open files            65535                65535                files</div></div><div><br></div><div>I understand that the switch uses 3 descriptors per bridge and 1 per port, but we have only 2 bridges one with about 5 ports the other with 300</div><div><br></div><div><div>$ovs-vsctl show | grep -c Port</div><div>305</div></div><div><br></div><div>I&#39;ve ensured there aren&#39;t any ports/interfaces in OVS that are no longer in existence on the host.<br></div><div><br></div><div>We&#39;ve seen this once before on this host and remedied it by restarting OVS but that is obviously disruptive to our production workloads so would like to understand what is happening.</div><div><br></div><div>I checked a few other hosts in our fleet and I&#39;ve found a mixture - a few that have been up for years have ~10-40k descriptors, many have more like 600. There seems to be no correlation between actual number of ovs ports and the number of descriptors.</div><div><br></div><div>If anyone has any suggestions for where to look or has seen this before, please let us know. I&#39;ve found very little online or on this list that seems directly relevant.</div><div><br></div><div>Thanks </div><div><br></div><div>Paul</div><div><br></div></div>