<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Mar 5, 2019 at 9:00 PM Ben Pfaff &lt;<a href="mailto:blp@ovn.org">blp@ovn.org</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">OK.  That gives me something to investigate.  I&#39;ll see what I can find<br>
out.<br>
<br>
You&#39;re running 64-bit kernel and userspace, x86-64?<br></blockquote><div><br></div><div>Yes.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
On Tue, Mar 05, 2019 at 08:42:14PM +0400, Oleg Bondarev wrote:<br>
&gt; On Tue, Mar 5, 2019 at 7:26 PM Ben Pfaff &lt;<a href="mailto:blp@ovn.org" target="_blank">blp@ovn.org</a>&gt; wrote:<br>
&gt; <br>
&gt; &gt; You&#39;re talking about the email where you dumped out a repeating sequence<br>
&gt; &gt; from some blocks?  That might be the root of the problem, if you can<br>
&gt; &gt; provide some more context.  I didn&#39;t see from the message where you<br>
&gt; &gt; found the sequence (was it just at the beginning of each of the 4 MB<br>
&gt; &gt; blocks you reported separately, or somewhere else), how many copies of<br>
&gt; &gt; it, or if you were able to figure out how long each of the blocks was.<br>
&gt; &gt; If you can provide that information I might be able to learn some<br>
&gt; &gt; things.<br>
&gt; &gt;<br>
&gt; <br>
&gt; Yes, those were beginnings of 0x4000000 size blocks reported by the script.<br>
&gt; I also checked 0x8000000 blocks reported and the content is the same.<br>
&gt; Examples of how those blocks end:<br>
&gt;  - <a href="https://pastebin.com/D9M6T2BA" rel="noreferrer" target="_blank">https://pastebin.com/D9M6T2BA</a><br>
&gt;  - <a href="https://pastebin.com/gNT7XEGn" rel="noreferrer" target="_blank">https://pastebin.com/gNT7XEGn</a><br>
&gt;  - <a href="https://pastebin.com/fqy4XDbN" rel="noreferrer" target="_blank">https://pastebin.com/fqy4XDbN</a><br>
&gt; <br>
&gt; So basically contents of the blocks are sequences of:<br>
&gt; <br>
&gt; *00000020: 0000 0000 0000 0000 6500 0000 0000 0000  ........e.......*<br>
&gt; *00000030: 0000 0000 0000 4014 0000 0000 0000 0000  ......@.........*<br>
&gt; *00000040: 0000 0000 0000 0000 fa16 3e2b c5d5 0000  ..........&gt;+....*<br>
&gt; *00000050: 0000 0022 0000 0000 0000 0000 0000 4014  ...&quot;..........@.*<br>
&gt; *00000060: 0000 0000 0000 0000 0000 0000 ffff ffff  ................*<br>
&gt; *00000070: ffff ffff ffff 0000 0000 0fff 0000 0000  ................*<br>
&gt; <br>
&gt; following each other and sometimes separated by sequences like this:<br>
&gt; <br>
&gt; *00001040: 6861 6e64 6c65 7232 3537 0000 0000 0000  handler257......*<br>
&gt; <br>
&gt; I ran the scripts against several core dumps of several compute nodes with<br>
&gt; the issue and<br>
&gt; the picture is pretty much the same: 0x4000000 blocks and less 0x8000000<br>
&gt; blocks.<br>
&gt; I checked the core dump from a compute node where OVS memory consumption<br>
&gt; was ok:<br>
&gt; no such block sizes reported.<br>
&gt; <br>
&gt; <br>
&gt; &gt;<br>
&gt; &gt; On Tue, Mar 05, 2019 at 09:07:55AM +0400, Oleg Bondarev wrote:<br>
&gt; &gt; &gt; Hi Ben,<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; I didn&#39;t have a chance to debug the scripts yet, but just in case you<br>
&gt; &gt; &gt; missed my last email with examples of repeatable blocks<br>
&gt; &gt; &gt; and sequences - do you think we still need to analyze further, will the<br>
&gt; &gt; &gt; scripts tell more about the heap?<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Thanks,<br>
&gt; &gt; &gt; Oleg<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; On Thu, Feb 28, 2019 at 10:14 PM Ben Pfaff &lt;<a href="mailto:blp@ovn.org" target="_blank">blp@ovn.org</a>&gt; wrote:<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; On Tue, Feb 26, 2019 at 01:41:45PM +0400, Oleg Bondarev wrote:<br>
&gt; &gt; &gt; &gt; &gt; Hi,<br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; thanks for the scripts, so here&#39;s the output for a 24G core dump:<br>
&gt; &gt; &gt; &gt; &gt; <a href="https://pastebin.com/hWa3R9Fx" rel="noreferrer" target="_blank">https://pastebin.com/hWa3R9Fx</a><br>
&gt; &gt; &gt; &gt; &gt; there&#39;s 271 entries of 4MB - does it seem something we should take a<br>
&gt; &gt; &gt; &gt; closer<br>
&gt; &gt; &gt; &gt; &gt; look at?<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; I think that this output really just indicates that the script failed.<br>
&gt; &gt; &gt; &gt; It analyzed a lot of regions but didn&#39;t output anything useful.  If it<br>
&gt; &gt; &gt; &gt; had worked properly, it would have told us a lot about data blocks that<br>
&gt; &gt; &gt; &gt; had been allocated and freed.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; The next step would have to be to debug the script.  It definitely<br>
&gt; &gt; &gt; &gt; worked for me before, because I have fixed at least 3 or 4 bugs based<br>
&gt; &gt; on<br>
&gt; &gt; &gt; &gt; it, but it also definitely is a quick hack and not something that I can<br>
&gt; &gt; &gt; &gt; stand behind.  I&#39;m not sure how to debug it at a distance.  It has a<br>
&gt; &gt; &gt; &gt; large comment that describes what it&#39;s trying to do.  Maybe that would<br>
&gt; &gt; &gt; &gt; help you, if you want to try to debug it yourself.  I guess it&#39;s also<br>
&gt; &gt; &gt; &gt; possible that glibc has changed its malloc implementation; if so, then<br>
&gt; &gt; &gt; &gt; it would probably be necessary to start over and build a new script.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt;<br>
</blockquote></div></div>