<div dir="ltr">Hi,<div><br></div><div>Sounds good. The ML idea is more on the researchy side, although I don't think it is unreasonable. Of course I do not expect straight NLP to be particularly successful here. But some kind of classification with constraints based on prior knowledge should work to some extent.</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sat, Apr 1, 2017 at 11:31 AM, Kunal Sharma <span dir="ltr"><<a href="mailto:ks05111996@gmail.com" target="_blank">ks05111996@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><img width="0" height="0" class="m_-4534728882491792635mailtrack-img" src="https://mailtrack.io/trace/mail/15b4eda42c2cbb3fc278f83870fbe483d77351a4.png?u=1049094"><div class="gmail_quote"><div dir="ltr"><img width="0" height="0" class="m_-4534728882491792635mt-old-signature">Good Evening,<div><br></div><div>I am sorry for contacting you so late regarding this, but for the past week I have been very busy with my mid semester exams. Also, regarding my GSoC 2017 project selection I have selected to Refactor the existing parsers and Implement new parsers. I have doubts reagarding the feasibility of the NLP Parser Project though.</div><div><br></div><div>The methods of NLP, including the terminology extraction, developed for texts written in natural language, are not necessarily well suited to the log files. That is due to the specific characteristics of log files, such as the heterogeneity of data and structure. The heterogeneity is not only within different file types but also within the file itself. Many times there are keywords which keep on repeating themselves many times in one documents. There is also the problem of specificity e.g. in two log files, QChem and Gaussian the method to extract the value of CCSD energy is very different and due to this structural dissimilarity we cannot simply hope to apply NLP and get good results.</div><div><br></div><div>An approach to this problem was explained <a href="https://pdfs.semanticscholar.org/0653/a5c48bd99bbdffb70a452aa3c207891db228.pdf" class="m_-4534728882491792635mt-detrack-inspected" target="_blank">here</a>:<br><br><b>(Please see page 3 of the paper provided in the link)</b><br></div><div><br></div><div>Also there isn't much literature on applying ML on log file parsing.It is mainly used for analysis of log files where good conclusions can be drawn rather than extracting good data values. </div><div><b><br></b></div><div><b>We can however use regular expression to try to create a general parser for different log files but since they have such different structures the parser will be very complicated and might not yield the best results.</b></div><div><br></div><div>Therefore, I think that this project is not suited for me at my level of knowledge and understanding.</div><div><br></div><div>I have provided the link for the first draft of my proposal: <a href="https://docs.google.com/document/d/1IDIFTmaTjXlIUpY9qsqnECrdqzu7B0EbLk2LwditpXw/edit?usp=sharing" class="m_-4534728882491792635mt-detrack-inspected" target="_blank">Open Chemistry proposal</a> </div><div><br></div><div>I will finish it by tonight, since I had to delete all the approaches I had written for the ML Parsing problem.</div><div>Please let me know your thoughts about this and I will get back to you regarding the same.</div><div><br></div><div>Thank you,</div><div><br></div><div>Kunal Sharma</div></div>
</div><br><br><br><br></div>
</blockquote></div><br></div>