<div dir="ltr">Hi Yue,<div><br></div><div>This is project is definitely about training an algo to extract data from the text output files, not replacing the calculation method in programs. There has been a bunch of work on the latter in the literature, and although I am not averse to a project in that area it's not what I had in mind. If you would like to propose a project that would predict molecular properties or whatever, you're welcome to do that, but keep in mind it should be a coding project, not a research-only thing.</div><div><br></div><div>If you would like to keep to the original intent for this project, then it's like you said, using the text of the output file as input and the data cclib extracts as output. In other words, can we train a model to extract the data we want without writing a parser? As an example, we'd like to just feed the logfile and get number of atoms, SCF energies, etc. To be honest, I'm not sure what approach would be best or than anything would work well, but the project is about exploring what can be done. We would expect you to suggest several models and a procedure to evaluate them.</div><div><br></div><div>HTH,</div><div>Karol</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Mar 9, 2018 at 6:06 AM, Yue Wang <span dir="ltr"><<a href="mailto:ywang337@jhu.edu" target="_blank">ywang337@jhu.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">




<div dir="ltr">
<div id="m_-6215013056877416339divtagdefaultwrapper" dir="ltr">
<div id="m_-6215013056877416339divtagdefaultwrapper" dir="ltr">
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
Dear Karol,</p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
<br>
</p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
Thanks for your message and it helps a lot! </p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
<br>
</p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
I find cclib is really a huge project and I have some new questions about the machine learning part.</p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
<br>
</p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
First, the issues listed on Github are all about previous projects(i.e., debug, <span>maintainace</span>). I've downloaded the cclib and read some of the python scripts. But I think  this kind of work needs great knowledge of  target programs like ADF or ORCA.
 Thus, it might be difficult for me to solve them and I was wondering if you could list some machine learning tasks for student like me to work on.</p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
<br>
</p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt">As you mentioned before, this machine learning project is brand new. So what's your expectation for it?(I've visited the GSOC website but the ideas list comes without
</span><span style="font-size:12pt">details.</span><span style="font-size:12pt">) To be more specific, what's the predictor? and what's the target?
<span style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt">
 I think we cannot avoid reading the output files </span><span style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt">If we want
 to parse the logfiles. </span><span style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:16px">M</span><span style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:16px">y
 plan is to set the numbers in the output files as predictor and the numbers in the parsed files as target. Furthermore, </span></span><span style="font-size:12pt">we can even use machine
</span>learning<span style="font-size:12pt"> techniques to replace the calculation methods. </span><span style="font-size:12pt"></span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt"><br>
</span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt">Thanks again and I'm looking forward to hearing from you soon!</span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt"><br>
</span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt">Best,</span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt">Yue</span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt"><br>
</span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt"><br>
</span></p>
<p style="margin-top:0px;margin-bottom:0px"><span style="font-size:12pt"><br>
</span></p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
<br>
</p>
<p style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;margin-top:0px;margin-bottom:0px">
<br>
</p>
</div>
<hr style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt;display:inline-block;width:98%">
<div id="m_-6215013056877416339divRplyFwdMsg" dir="ltr" style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt">
<font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> Karol Langner <<a href="mailto:karol.langner@gmail.com" target="_blank">karol.langner@gmail.com</a>><br>
<b>Sent:</b> Sunday, February 25, 2018 9:49:02 AM<br>
<b>To:</b> Yue Wang<br>
<b>Cc:</b> openchemistry-developers <a href="http://public.kitware.com" target="_blank">public.kitware.com</a>; cclib-dev List<br>
<b>Subject:</b> Re: Interested in Machine learning applied to parsing computational chemistry output</font>
<div> </div>
</div>
<div style="color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols;font-size:12pt">
<div dir="ltr">Hi Yue,
<div><br>
</div>
<div>CC'ing relevant mailing lists.</div>
<div><br>
</div>
<div>Nice to hear from you. To get started, I would recommend taking a look around the cclib repository (<a href="https://github.com/cclib/cclib" id="m_-6215013056877416339LPlnk464843" target="_blank">https://github.com/cclib/<wbr>cclib</a>) and docs (<a href="https://cclib.github.io/how_to_parse.html" id="m_-6215013056877416339LPlnk10542" target="_blank">https://cclib.github.io/how_<wbr>to_parse.html</a>).
 The docs are not perfect, but give a reasonable overview (of course, please tell us what to improve). If you feel like digging into some contributions, feel free to send a pull request on GitHub or to peruse our current list of bugs and issues (<a href="https://github.com/cclib/cclib/issues" id="m_-6215013056877416339LPlnk510059" target="_blank">https://github.com/cclib/<wbr>cclib/issues</a>).</div>
<div id="m_-6215013056877416339LPBorder_GT_15206025051980.44593756426335385" style="margin-bottom:20px;overflow:auto;width:100%;text-indent:0px">
<table id="m_-6215013056877416339LPContainer_15206025051940.8656867900429264" cellspacing="0" style="width:90%;background-color:rgb(255,255,255);overflow:auto;padding-top:20px;padding-bottom:20px;margin-top:20px;border-top:1px dotted rgb(200,200,200);border-bottom:1px dotted rgb(200,200,200)">
<tbody>
<tr valign="top" style="border-spacing:0px">
<td id="m_-6215013056877416339TextCell_15206025051940.3745908283412076" colspan="2" style="vertical-align:top;padding:0px;display:table-cell">
<div id="m_-6215013056877416339LPRemovePreviewContainer_15206025051940.28405332283512186"></div>
<div id="m_-6215013056877416339LPTitle_15206025051940.9335598966617014" style="color:rgb(0,120,215);font-weight:400;font-size:21px;font-family:wf_segoe-ui_light,"Segoe UI Light","Segoe WP Light","Segoe UI","Segoe WP",Tahoma,Arial,sans-serif;line-height:21px">
<a id="m_-6215013056877416339LPUrlAnchor_15206025051950.22466281686672773" href="https://cclib.github.io/how_to_parse.html" style="text-decoration:none" target="_blank">How to parse and write — cclib 1.5 documentation</a></div>
<div id="m_-6215013056877416339LPMetadata_15206025051950.5319322663001009" style="margin:10px 0px 16px;color:rgb(102,102,102);font-weight:400;font-family:wf_segoe-ui_normal,"Segoe UI","Segoe WP",Tahoma,Arial,sans-serif;font-size:14px;line-height:14px">
<a href="http://cclib.github.io" target="_blank">cclib.github.io</a></div>
<div id="m_-6215013056877416339LPDescription_15206025051970.6612360140780265" style="display:block;color:rgb(102,102,102);font-weight:400;font-family:wf_segoe-ui_normal,"Segoe UI","Segoe WP",Tahoma,Arial,sans-serif;font-size:14px;line-height:20px;max-height:100px;overflow:hidden">
How to parse and write¶ The cclib package provides three scripts to parse and write data i.e. ccget, ccwrite, and cda. ccget is used to parse attribute data from ...</div>
</td>
</tr>
</tbody>
</table>
</div>
<br>
<div id="m_-6215013056877416339LPBorder_GT_15206025051460.11149913242393095" style="margin-bottom:20px;overflow:auto;width:100%;text-indent:0px">
<table id="m_-6215013056877416339LPContainer_15206025051380.7953362151938974" cellspacing="0" style="width:90%;background-color:rgb(255,255,255);overflow:auto;padding-top:20px;padding-bottom:20px;margin-top:20px;border-top:1px dotted rgb(200,200,200);border-bottom:1px dotted rgb(200,200,200)">
<tbody>
<tr valign="top" style="border-spacing:0px">
<td id="m_-6215013056877416339TextCell_15206025051430.9072394075266688" colspan="2" style="vertical-align:top;padding:0px;display:table-cell">
<div id="m_-6215013056877416339LPRemovePreviewContainer_15206025051430.24344036767151533"></div>
<div id="m_-6215013056877416339LPTitle_15206025051430.24700726093850567" style="color:rgb(0,120,215);font-weight:400;font-size:21px;font-family:wf_segoe-ui_light,"Segoe UI Light","Segoe WP Light","Segoe UI","Segoe WP",Tahoma,Arial,sans-serif;line-height:21px">
<a id="m_-6215013056877416339LPUrlAnchor_15206025051440.5289471682614244" href="https://github.com/cclib/cclib" style="text-decoration:none" target="_blank">GitHub - cclib/cclib: Parsers and algorithms for ...</a></div>
<div id="m_-6215013056877416339LPMetadata_15206025051440.2551886994234289" style="margin:10px 0px 16px;color:rgb(102,102,102);font-weight:400;font-family:wf_segoe-ui_normal,"Segoe UI","Segoe WP",Tahoma,Arial,sans-serif;font-size:14px;line-height:14px">
<a href="http://github.com" target="_blank">github.com</a></div>
<div id="m_-6215013056877416339LPDescription_15206025051450.09661139518408413" style="display:block;color:rgb(102,102,102);font-weight:400;font-family:wf_segoe-ui_normal,"Segoe UI","Segoe WP",Tahoma,Arial,sans-serif;font-size:14px;line-height:20px;max-height:100px;overflow:hidden">
cclib - Parsers and algorithms for computational chemistry logfiles</div>
</td>
</tr>
</tbody>
</table>
</div>
<br>
<div><br>
</div>
<div>As far as the ML project is concerned, it would somewhat more research-y than the other projects, simply because we haven't really tried to do this before. We would expect a student to independently survey what approaches would be reasonable, and define
 the metrics/assumption that can be applied.</div>
<div><br>
</div>
<div>Hope that helps somewhat, don't hesitate to ask more questions.</div>
<div><br>
</div>
<div>- Karol</div>
<div><br>
</div>
</div>
<div class="m_-6215013056877416339x_gmail_extra"><br>
<div class="m_-6215013056877416339x_gmail_quote">On Sat, Feb 24, 2018 at 4:48 AM, Yue Wang <span dir="ltr">
<<a href="mailto:ywang337@jhu.edu" id="m_-6215013056877416339LPlnk352517" target="_blank">ywang337@jhu.edu</a>></span> wrote:<br>
<blockquote class="m_-6215013056877416339x_gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr">
<div id="m_-6215013056877416339x_m_-3834237806287864581divtagdefaultwrapper" dir="ltr" style="font-size:12pt;color:rgb(0,0,0);font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols">
<p style="margin-top:0;margin-bottom:0">Hi Karol,</p>
<p style="margin-top:0;margin-bottom:0"><br>
</p>
<p style="margin-top:0;margin-bottom:0"></p>
<div>I am a student at Johns Hopkins University and I am interested in your project idea:
<span>Machine learning applied to parsing computational chemistry output.</span></div>
<div><span><br>
</span></div>
<div><span>I've experience with Python and Machine Learning and participated in Kaggle competition and UW's Data Science Incubator program. Also, <span>I worked with Prof. Xiao Gu during my undergrad to do DFT calculation and participated in a project exploring
 alkali-resistant mechanism of a Hollandite deNOx catalyst, which was published on Environ. Sci. Technol in 2015. </span></span></div>
<div><span><span><br>
</span></span></div>
<div><span><span>But I'm new to open source project and I do not know how to work with
<span>cclib to make some contribution</span>. Could you give me some guide? </span></span></div>
<div><span><span><br>
</span></span></div>
<div><span><span>Thanks!</span></span></div>
<div><span><span><br>
</span></span></div>
<div>Best,</div>
<div>Yue</div>
<div><br>
</div>
<br>
<p></p>
</div>
</div>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</div>

</blockquote></div><br></div>